реклама
Новости Software

Свежая версия ИИ Google Gemini обошла в тестах GPT-4o и Claude-3

Последняя версия большой языковой модели Gemini 1.5 Pro внезапно пробилась на верхушку рейтинга на платформе Chatbot Arena, обойдя в тестах традиционных лидеров в области генеративного искусственного интеллекта — OpenAI GPT-4o и Anthropic Claude-3.

 Источник изображения: blog.google

Источник изображения: blog.google

Бывшая прежде чемпионом нейросеть OpenAI GPT-4o уступила лидерство 1 августа, когда Google без громких анонсов выпустила экспериментальную сборку своей последней модели — она быстро привлекла интересующееся ИИ сообщество в соцсетях, которое сочло победу в бенчмарке свидетельством качества. Сервис OpenAI ChatGPT стал почти синонимом генеративного ИИ с момента запуска ещё в эпоху GPT-3. К настоящему моменту устоявшимися лидерами считаются OpenAI GPT-4o и Anthropic Claude-3, которые за последний год почти не знали конкурентов в тестах.

 Источник изображения: x.com/lmsysorg

Источник изображения: x.com/lmsysorg

Один из наиболее популярных тестов — LMSYS Chatbot Arena. Он предлагает моделям различные задачи и присваивает им оценки. Актуальная версия GPT-4o смогла набрать 1286 баллов, а Claude-3 — 1271 балл. У предыдущей Google Gemini 1.5 Pro рейтинг был 1261, но выпущенная 1 августа Gemini 1.5 Pro 0801 внезапно получила колоссальные 1300 баллов. Это может свидетельствовать, что новая нейросеть Google способнее своих конкурентов, но бенчмарки не всегда точно отражают, что может и чего не может модель ИИ.

Современный рынок чат-ботов уже достаточно созрел, чтобы предложить потребителю несколько вариантов и дать ему возможность самому решить, какой ИИ подходит лучше всего. Пока нет ясности, станет ли экспериментальная Gemini 1.5 Pro версией по умолчанию в будущем. Она остаётся общедоступной, но с экспериментальным статусом может быть закрыта или радикально отредактирована по соображениям безопасности или другим причинам.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
Картинки в стиле Ghibli перегрузили серверы OpenAI — выпуск новых функций замедлен 7 ч.
У Ubisoft пока нет чёткого плана работы новой компании с Tencent — инвесторы и сотрудники нервничают 8 ч.
«Загрузки быстрее, чем в Doom (2016)»: эксперт Digital Foundry остался в восторге от Doom: The Dark Ages 9 ч.
Консоли задержат релиз постапокалиптического стелс-экшена Steel Seed от создателей Close to the Sun — объявлена новая дата выхода 11 ч.
ИИ-модель Llama запустили на ПК из прошлого тысячелетия на базе Windows 98 12 ч.
Telegram продал виртуальных первоапрельских кирпичей почти на 100 млн рублей 12 ч.
Nintendo подтвердила рекордную продолжительность презентации Switch 2 и устроит две демонстрации игр для консоли 12 ч.
ChatGPT остаётся самым популярным чат-ботом с ИИ, но у конкурентов аудитория тоже растёт 13 ч.
Google сделает сквозное шифрование в Gmail доступным для всех 13 ч.
Антиутопия на колёсах: новый геймплейный трейлер раскрыл дату выхода приключения Beholder: Conductor про кондуктора легендарного поезда 14 ч.