реклама
Новости Software

Свежая версия ИИ Google Gemini обошла в тестах GPT-4o и Claude-3

Последняя версия большой языковой модели Gemini 1.5 Pro внезапно пробилась на верхушку рейтинга на платформе Chatbot Arena, обойдя в тестах традиционных лидеров в области генеративного искусственного интеллекта — OpenAI GPT-4o и Anthropic Claude-3.

 Источник изображения: blog.google

Источник изображения: blog.google

Бывшая прежде чемпионом нейросеть OpenAI GPT-4o уступила лидерство 1 августа, когда Google без громких анонсов выпустила экспериментальную сборку своей последней модели — она быстро привлекла интересующееся ИИ сообщество в соцсетях, которое сочло победу в бенчмарке свидетельством качества. Сервис OpenAI ChatGPT стал почти синонимом генеративного ИИ с момента запуска ещё в эпоху GPT-3. К настоящему моменту устоявшимися лидерами считаются OpenAI GPT-4o и Anthropic Claude-3, которые за последний год почти не знали конкурентов в тестах.

 Источник изображения: x.com/lmsysorg

Источник изображения: x.com/lmsysorg

Один из наиболее популярных тестов — LMSYS Chatbot Arena. Он предлагает моделям различные задачи и присваивает им оценки. Актуальная версия GPT-4o смогла набрать 1286 баллов, а Claude-3 — 1271 балл. У предыдущей Google Gemini 1.5 Pro рейтинг был 1261, но выпущенная 1 августа Gemini 1.5 Pro 0801 внезапно получила колоссальные 1300 баллов. Это может свидетельствовать, что новая нейросеть Google способнее своих конкурентов, но бенчмарки не всегда точно отражают, что может и чего не может модель ИИ.

Современный рынок чат-ботов уже достаточно созрел, чтобы предложить потребителю несколько вариантов и дать ему возможность самому решить, какой ИИ подходит лучше всего. Пока нет ясности, станет ли экспериментальная Gemini 1.5 Pro версией по умолчанию в будущем. Она остаётся общедоступной, но с экспериментальным статусом может быть закрыта или радикально отредактирована по соображениям безопасности или другим причинам.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
Инвесторы потребовали от Ubisoft пересмотреть условия сделки с Tencent и готовы добиваться своего через суд 8 мин.
Microsoft запустила собственный ИИ-поисковик Copilot Search 36 мин.
Спустя почти пять лет после дебюта на консолях The Last of Us Part II наконец вышла на ПК 56 мин.
ЕС оштрафует TikTok на €500 млн за передачу данных европейцев в Китай 3 ч.
40 кадров/с и «местами даже хорошая» графика за $70: первые подробности Cyberpunk 2077 для Nintendo Switch 2 3 ч.
Представлена ранняя ПК-версия российской ОС «Аврора» — на ней уже запускается Telegram и не только 4 ч.
«РТК ИТ Плюс» пополнила ИТ-экосистему «Лукоморье» тремя новыми продуктами 4 ч.
Microsoft подтвердила дату выхода GTA V в PC Game Pass — подписчики получат доступ к GTA V Enhanced 4 ч.
Новый контент в Elden Ring: Tarnished Edition для Nintendo Switch 2 появится и на других платформах 5 ч.
Лавкрафтианский хоррор Stygian: Outer Gods готовится к старту открытой «беты» — новый геймплейный трейлер 6 ч.
Большой адронный коллайдер собрал базу для выхода за пределы известной физики 3 ч.
Восьмиядерные CPU стали самыми популярными в мире по статистике CPU-Z — AMD стремительно отбирает рынок у Intel и Nvidia 3 ч.
Apple потеряла $250 млрд стоимости за день — пошлины Трампа обвалили акции техногигантов 4 ч.
Nintendo Switch 2 получила поддержку трассировки лучей и DLSS, но их появление в играх зависит от разработчиков 4 ч.
Nikon представила полнокадровую камеру Z5 II с улучшенным автофокусом и повышенной скоростью съёмки за $1700 5 ч.
«Акустическое совершенство»: Bang & Olufsen представила каменную колонку Beosound Balance Natura 5 ч.
У россиян вырос интерес к планшетам — продажи подскочили на 15 % в первом квартале 6 ч.
«Идеальный снимок. Скоро» — Nothing намекнула на скорый выход CMF Phone 2 6 ч.
Samsung выпустила 20-метровые телевизоры для кинотеатров Onyx 6 ч.
Intel переосмыслила свой главный слоган и обновила фирменный стиль, чтобы вернуть пользователей 7 ч.