реклама
Новости Software

Claude 3 Opus сбросила GPT-4 с первого места в рейтинге языковых моделей

Большая языковая модель (LLM) Claude 3 Opus от Anthropic впервые превзошла GPT-4 (модель в основе ChatGPT) от OpenAI на Chatbot Arena — популярной площадке, где пользователи оценивают качество работы чат-ботов. «Король мёртв», — написал в социальной сети X разработчик ПО Ник Добос [Nick Dobos].

 Источник изображения: Anthropic

Источник изображения: Anthropic

Зашедшим на сайт пользователям Chatbot Arena предлагается ввести запрос, после чего демонстрируются два результата от неуказанных языковых моделей — человек должен выбрать, какой результат нравится больше. Проведя тысячи сравнений, Chatbot Arena заполняет обновляемую рейтинговую таблицу. Сайт управляется исследовательской организацией Large Model Systems Organization (LMSYS ORG), занимающейся открытыми ИИ-моделями.

«Впервые на вершине рейтинга ИИ-модели не от OpenAI: Opus для сложных задач, Haiku — для вариантов, когда нужно дёшево и быстро. Это обнадёживает — от конкуренции разработчиков все только выиграют. Тем не менее, GPT-4 уже больше года, и конкуренты догнали её только сейчас», — прокомментировал событие независимый исследователь ИИ Саймон Уиллисон (Simon Willison).

Сейчас в рейтинге Chatbot Arena представлены четыре версии GPT-4, поскольку с каждым обновлением вывод модели менялся, и некоторые пользователи предпочитают конкретные версии или же пользуются ими всеми для большей стабильности результатов. GPT-4 появилась в Chatbot Arena 10 мая 2023 года, через неделю после запуска рейтинга, и с тех пор различные версии GPT-4 неизменно занимали верхние строчки.

Chatbot Arena ценится исследователями ИИ за возможность более-менее объективно оценить эффективность чат-ботов, что весьма непросто, и ключевым фактором здесь становится множество оценок, складывающихся в общую картину. Субъективные оценки играют немалую роль в сфере ИИ, где разработчик модели может выбрать конкретные показатели в рекламных целях. «Не так давно я долго программировал с использованием ИИ-модели Claude 3 Opus, и она полностью разгромила GPT-4», — написал в X разработчик ПО для ИИ Антон Бакай (Anton Bacaj).

Успех рвущейся к вершинам рейтинга Claude 3 от Anthropic уже подтолкнул некоторых пользователей перейти на неё с GPT-4. Тем временем, набирает популярность Gemini Advanced от Google. Позиции OpenAI пошатнулись, но компания не почивает на лаврах и готовит новые модели, среди которых GPT-5.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
Дональд Трамп намерен обсудить сделку с TikTok сегодня 2 ч.
Картинки в стиле Ghibli перегрузили серверы OpenAI — выпуск новых функций замедлен 9 ч.
У Ubisoft пока нет чёткого плана работы новой компании с Tencent — инвесторы и сотрудники нервничают 11 ч.
«Загрузки быстрее, чем в Doom (2016)»: эксперт Digital Foundry остался в восторге от Doom: The Dark Ages 12 ч.
Консоли задержат релиз постапокалиптического стелс-экшена Steel Seed от создателей Close to the Sun — объявлена новая дата выхода 14 ч.
ИИ-модель Llama запустили на ПК из прошлого тысячелетия на базе Windows 98 14 ч.
Telegram продал виртуальных первоапрельских кирпичей почти на 100 млн рублей 15 ч.
Nintendo подтвердила рекордную продолжительность презентации Switch 2 и устроит две демонстрации игр для консоли 15 ч.
ChatGPT остаётся самым популярным чат-ботом с ИИ, но у конкурентов аудитория тоже растёт 16 ч.
Google сделает сквозное шифрование в Gmail доступным для всех 16 ч.
Hyundai представила Insteroid — концепт электромобиля в стиле гоночных симуляторов 56 мин.
Amazon возобновила доставку товаров дронами в Техасе и Аризоне после двухмесячного перерыва 2 ч.
UMC открыла в Сингапуре новое передовое предприятие, снижая зависимость от Тайваня 4 ч.
Intel: Panther Lake возьмут всё самое лучше от актуальных Core и ангстремного техпроцесса 18A, но выйдут в 2026 году 6 ч.
Новая статья: Выбираем кулер для процессора Intel LGA1700 до 2 000 рублей 10 ч.
Garmin представила смарт-часы Vivoactive 6 с мониторингом энергии пользователя за $300 12 ч.
Экспериментальный мозговой имплантат на лету превратил мысли пациента в беглую речь 12 ч.
В Калифорнии зарядных станций для электромобилей теперь на 48 % больше, чем бензоколонок 14 ч.
Японская Rapidus к концу апреля запустит опытное производство 2-нм чипов 16 ч.
В Лондоне появится экобезопасный ЦОД AWS для ленточных накопителей 18 ч.