реклама
Новости Software

Claude 3 Opus сбросила GPT-4 с первого места в рейтинге языковых моделей

Большая языковая модель (LLM) Claude 3 Opus от Anthropic впервые превзошла GPT-4 (модель в основе ChatGPT) от OpenAI на Chatbot Arena — популярной площадке, где пользователи оценивают качество работы чат-ботов. «Король мёртв», — написал в социальной сети X разработчик ПО Ник Добос [Nick Dobos].

 Источник изображения: Anthropic

Источник изображения: Anthropic

Зашедшим на сайт пользователям Chatbot Arena предлагается ввести запрос, после чего демонстрируются два результата от неуказанных языковых моделей — человек должен выбрать, какой результат нравится больше. Проведя тысячи сравнений, Chatbot Arena заполняет обновляемую рейтинговую таблицу. Сайт управляется исследовательской организацией Large Model Systems Organization (LMSYS ORG), занимающейся открытыми ИИ-моделями.

«Впервые на вершине рейтинга ИИ-модели не от OpenAI: Opus для сложных задач, Haiku — для вариантов, когда нужно дёшево и быстро. Это обнадёживает — от конкуренции разработчиков все только выиграют. Тем не менее, GPT-4 уже больше года, и конкуренты догнали её только сейчас», — прокомментировал событие независимый исследователь ИИ Саймон Уиллисон (Simon Willison).

Сейчас в рейтинге Chatbot Arena представлены четыре версии GPT-4, поскольку с каждым обновлением вывод модели менялся, и некоторые пользователи предпочитают конкретные версии или же пользуются ими всеми для большей стабильности результатов. GPT-4 появилась в Chatbot Arena 10 мая 2023 года, через неделю после запуска рейтинга, и с тех пор различные версии GPT-4 неизменно занимали верхние строчки.

Chatbot Arena ценится исследователями ИИ за возможность более-менее объективно оценить эффективность чат-ботов, что весьма непросто, и ключевым фактором здесь становится множество оценок, складывающихся в общую картину. Субъективные оценки играют немалую роль в сфере ИИ, где разработчик модели может выбрать конкретные показатели в рекламных целях. «Не так давно я долго программировал с использованием ИИ-модели Claude 3 Opus, и она полностью разгромила GPT-4», — написал в X разработчик ПО для ИИ Антон Бакай (Anton Bacaj).

Успех рвущейся к вершинам рейтинга Claude 3 от Anthropic уже подтолкнул некоторых пользователей перейти на неё с GPT-4. Тем временем, набирает популярность Gemini Advanced от Google. Позиции OpenAI пошатнулись, но компания не почивает на лаврах и готовит новые модели, среди которых GPT-5.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
Capcom добавила в Resident Evil Requiem вид от третьего лица потому, что Resident Evil 7 оказалась «даже слишком страшной» 2 ч.
Новые меры по борьбе с киберпреступниками могут ударить по «белым хакерам» в России 2 ч.
Гендиректор Epic Games: в проблемах с оптимизацией игр на Unreal Engine 5 виноват не движок, а разработчики 2 ч.
Разработчик Dread Delusion анонсировал Entropy — олдскульную пошаговую ролевую игру про актёра театра, на мир которого напали демоны 3 ч.
«Яндекс» запустил новую ИИ-модель YandexGPT 5.1 Pro, но доступна она пока лишь бизнесу 4 ч.
«Это точно не конец»: создатель Clair Obscur: Expedition 33 намекнул на дополнение и сиквелы 4 ч.
Google заявила о своей непричастности к сбоям Google Meet в России 5 ч.
«Сократик»: создание презентаций за минуту с помощью ИИ 7 ч.
Bethesda подтвердила работу над вторым сюжетным дополнением к Starfield и геймплейными улучшениями, о которых просили игроки 7 ч.
Обнаружен первый ИИ-вирус — он запускает на локальном ПК нейросеть от OpenAI и просит её написать вредоносный код 8 ч.
Самолёт SolarStratos побил рекорд высоты полёта на солнечной тяге 2 ч.
Сотовые сети в России стали чаще сбоить после блокировки звонков в мессенджерах 2 ч.
NVIDIA жалуется на многомиллиардные потери из-за торговой войны США и Китая 2 ч.
Китайский бизнес переходит на подержанные ускорители NVIDIA A100 и H100 из-за проблем с поставками H20 3 ч.
Европейские продажи Tesla рухнули на 40 %, а у китайской BYD — утроились 4 ч.
Российский синхротрон СКИФ стал ближе к научной работе: в его бустере запустили циркулирующий пучок электронов 4 ч.
Рекордные продажи NVIDIA не впечатлили инвесторов из-за слабой выручки в сегменте ЦОД и неопределённости с поставками в Китай 4 ч.
Еще один крупный автопроизводитель отказался от грандиозных планов на электромобили 4 ч.
Луна эффектно вклинилась в кадр во время съёмки Солнца орбитальным коронографом 4 ч.
GlobalFoundries заявила, что не будет обменивать субсидии США на акции по примеру Intel 5 ч.