реклама
Новости Software

Платная версия ChatGPT отупела, в то время как бесплатная набралась ума, выяснили учёные из Стэнфорда

Новое исследование, проведённое учёными из Стэнфордского университета и Калифорнийского университета в Беркли, выявило тревожное снижение качества ответов платной версии ChatGPT. Так, например, точность определения простых чисел у новейшей модели GPT-4, которая лежит в основе ChatGPT Plus, с марта по июнь 2023 года упала с 97,6 % до всего лишь 2,4 %. Напротив, GPT-3.5, являющаяся основной для обычного ChatGPT, точность ответов в некоторых задачах повысила.

 Источник изображения: OpenAI

Источник изображения: OpenAI

В последние месяцы всё чаще обсуждается снижение качества ответов ChatGPT. Группа учёных из Стэнфордского университета и Калифорнийского университета в Беркли решила провести исследование с целью определить, действительно ли произошла деградация качества работы этого ИИ, и разработать метрики для количественной оценки масштабов этого негативного явления. Как выяснилось, снижение качества ChatGPT — это не байка или выдумка, а реальность.

Трое учёных — Матей Захария (Matei Zaharia), Линцзяо Чэнь (Lingjiao Chen) и Джеймс Цзоу (James Zou) — опубликовали научную работу под названием «Как меняется поведение ChatGPT с течением времени» (How is ChatGPT’s behavior changing over time). Захария, профессор компьютерных наук в Калифорнийском университете, обратил внимание на удручающий факт: точность GPT-4 в ответе на вопрос «Это простое число? Подумай шаг за шагом» снизилась с 97,6 % до 2,4 % с марта по июнь.

OpenAI открыла доступ к API языковой модели GPT-4 около двух недель назад и объявила её своей самой продвинутой и функциональной ИИ-моделью. Поэтому общественность была расстроена тем, что новое исследование обнаружило значительное снижение качества ответов GPT-4 даже на относительно простые запросы.

Исследовательская группа разработала ряд заданий, чтобы оценить различные качественные аспекты основных больших языковых моделей (LLM) ChatGPT — GPT-4 и GPT-3.5. Задания были разделены на четыре категории, каждая из которых отражает различные навыки ИИ и позволяет оценить их качество:

  • решение математических задач;
  • ответы на деликатные вопросы;
  • генерация кода;
  • визуальное мышление.

В следующих графиках представлен обзор эффективности работы ИИ-моделей OpenAI. Исследователи оценили версии GPT-4 и GPT-3.5, выпущенные в марте и июне 2023 года.

 График 1. Производительность GPT-4 и GPT-3.5 в марте и июне 2023 года на четырех задачах. Источник изображения: Matei Zaharia, Lingjiao Chen, James Zou / arxiv.org

Слайд 1. Производительность GPT-4 и GPT-3.5 в марте и июне 2023 года. Источник: Matei Zaharia, Lingjiao Chen, James Zou

Первый слайд демонстрирует эффективность выполнения четырёх задач — решения математических задач, ответа на деликатные вопросы, генерации кода и визуального мышления — версиями GPT-4 и GPT-3.5, выпущенными в марте и июне. Заметно, что эффективность GPT-4 и GPT-3.5 может значительно варьироваться со временем и в некоторых задачах ухудшаться.

 График 2. Решение математических задач. Источник изображения: Matei Zaharia, Lingjiao Chen, James Zou / arxiv.org

Слайд 2. Решение математических задач. Источник изображения: Matei Zaharia, Lingjiao Chen, James Zou

Второй слайд иллюстрирует эффективность решения математических задач. Измерялась точность, многословность (в символах) и совпадение ответов GPT-4 и GPT-3.5 в период с марта по июнь 2023 года. В целом, наблюдались значительные колебания в эффективности обеих ИИ-моделей. Также приведён пример запроса и соответствующие ответы за определенный промежуток времени. GPT-4 в марте следовала инструкциям по цепочке мыслей для получения правильного ответа, но в июне их проигнорировала, выдав неверный ответ. GPT-3.5 всегда следовала цепочке мыслей, но настаивала на генерации неправильного ответа в марте. Эта проблема была устранена к июню.

 График 3. Ответы на деликатные вопросы. Источник изображения: Matei Zaharia, Lingjiao Chen, James Zou / arxiv.org

Слайд 3. Ответы на деликатные вопросы. Источник изображения: Matei Zaharia, Lingjiao Chen, James Zou

На третьем слайде показан анализ ответов на деликатные вопросы. С марта по июнь GPT-4 ответила на меньшее количество вопросов, в то время как GPT-3.5 ответила на немного больше. Также приведён пример запроса и ответов GPT-4 и GPT-3.5 в разные даты. В марте GPT-4 и GPT-3.5 были многословны и давали подробные объяснения, почему они не ответили на запрос. В июне они просто извинились.

 График 4. Генерация кода. Источник изображения: Matei Zaharia, Lingjiao Chen, James Zou / arxiv.org

Слайд 4. Генерация кода. Источник изображения: Matei Zaharia, Lingjiao Chen, James Zou

Четвёртый слайд демонстрирует снижение эффективности генерации кода. Общая тенденция показывает, что для GPT-4 процент непосредственно исполняемых генераций сократился с 52 % в марте до 10 % в июне. Также наблюдалось значительное падение для GPT-3.5 (с 22 % до 2 %). Многословность GPT-4, измеряемая количеством символов в генерациях, также увеличилась на 20 %. Также приведён пример запроса и соответствующие ответы. В марте обе ИИ-модели следовали инструкции пользователя («только код») и таким образом генерировали непосредственно исполняемый код. Однако в июне они добавили лишние тройные кавычки до и после фрагмента кода, делая код неисполняемым.

 График 5. Визуальное мышление. Источник изображения: Matei Zaharia, Lingjiao Chen, James Zou / arxiv.org

Слайд 5. Визуальное мышление. Источник изображения: Matei Zaharia, Lingjiao Chen, James Zou / arxiv.org

Пятый слайд демонстрирует эффективность визуального мышления ИИ-моделей. В части общих результатов и GPT-4, и GPT-3.5 показали себя на 2 % лучше в период с марта по июнь, точность их ответов улучшилась. Вместе с тем, объём информации, которую они генерировали, остался примерно на том же уровне. 90 % визуальных задач, которые они решали, не изменились за этот период. На примере конкретного вопроса и ответов на него можно заметить, что, несмотря на общий прогресс, GPT-4 в июне показала себя хуже, чем в марте. Если в марте эта модель выдала правильный ответ, то в июне уже ошиблась.

Пока неясно, как обновляются эти модели, и могут ли изменения, направленные на улучшение некоторых аспектов их работы, негативно отразиться на других. Эксперты обращают внимание, насколько хуже стала новейшая версия GPT-4 по сравнению с версией марта в трёх тестовых категориях. Она только незначительно опережает своего предшественника в визуальном мышлении.

Ряд пользователей могут не обратить внимания на снижение качества результатов работы одних и тех же версий ИИ-моделей. Однако, как отмечают исследователи, из-за популярности ChatGPT упомянутые модели получили широкое распространение не только среди рядовых пользователей, но и многих коммерческих организаций. Следовательно, нельзя исключать, что некачественная информация, сгенерированная ChatGPT, может повлиять на жизни реальных людей и работу целых компаний.

Исследователи намерены продолжать оценку версий GPT в рамках более долгосрочного исследования. Возможно, OpenAI следует регулярно проводить и публиковать свои собственные исследования качества работы своих ИИ-моделей для клиентов. Если компания не сможет стать более открытой в этом вопросе, может потребоваться вмешательство бизнеса или государственных организаций с целью контроля некоторых базовых показателей качества ИИ.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
Центр ФСБ по компьютерным инцидентам разорвал договор с Positive Technologies 2 ч.
Android упростит смену смартфона — авторизовываться в приложениях вручную больше не придётся 2 ч.
OpenAI обдумывает создание собственного интернет-браузера и поисковых систем для противостояния Google 3 ч.
Apple разрабатывает LLM Siri — она будет больше похожа на человека и выйдет с iOS 19 4 ч.
Новая статья: Верные спутники: 20+ полезных Telegram-ботов для путешественников 9 ч.
Итоги Golden Joystick Awards 2024 — Final Fantasy VII Rebirth и Helldivers 2 забрали больше всех наград, а Black Myth: Wukong стала игрой года 11 ч.
В программу сохранения классических игр от GOG вошли S.T.A.L.K.E.R. Shadow of Chernobyl и Call of Pripyat, а Clear Sky — на подходе 12 ч.
Star Wars Outlaws вышла в Steam с крупным обновлением и дополнением про Лэндо Калриссиана 13 ч.
Рекордная скидка и PvP-режим Versus обернулись для Warhammer: Vermintide 2 полумиллионом новых игроков за неделю 14 ч.
Новый трейлер раскрыл дату выхода Mandragora — метроидвании с элементами Dark Souls и нелинейной историей от соавтора Vampire: The Masquerade — Bloodlines 15 ч.
Positive Technologies получила сертификат ФСТЭК на межсетевой экран PT NGFW 2 ч.
Google снова уходит с рынка планшетов, сворачивая разработку Pixel Tablet 2 2 ч.
Nvidia предупредила о предстоящем дефиците GeForce в ближайшие месяцы 6 ч.
Представлен внешний SSD SanDisk Extreme на 8 Тбайт за $800 и скоростной SanDisk Extreme PRO с USB4 10 ч.
Представлен безбуферный SSD WD_Black SN7100 со скоростью до 7250 Мбайт/с и внешний SSD WD_Black C50 для Xbox 10 ч.
Новая статья: Обзор ноутбука ASUS Zenbook S 16 (UM5606W): Ryzen AI в естественной среде 11 ч.
Redmi показала флагманский смартфон K80 Pro и объявила дату его премьеры 13 ч.
Астрономы впервые сфотографировали умирающую звезду за пределами нашей галактики — она выглядит не так, как ожидалось 16 ч.
Представлена технология охлаждения чипов светом — секретная и только по предварительной записи 16 ч.
Японская Hokkaido Electric Power намерена перезапустить ядерный реактор для удовлетворения потребности ЦОД в энергии 16 ч.