реклама
Новости Software

Свежая версия ИИ Google Gemini обошла в тестах GPT-4o и Claude-3

Последняя версия большой языковой модели Gemini 1.5 Pro внезапно пробилась на верхушку рейтинга на платформе Chatbot Arena, обойдя в тестах традиционных лидеров в области генеративного искусственного интеллекта — OpenAI GPT-4o и Anthropic Claude-3.

 Источник изображения: blog.google

Источник изображения: blog.google

Бывшая прежде чемпионом нейросеть OpenAI GPT-4o уступила лидерство 1 августа, когда Google без громких анонсов выпустила экспериментальную сборку своей последней модели — она быстро привлекла интересующееся ИИ сообщество в соцсетях, которое сочло победу в бенчмарке свидетельством качества. Сервис OpenAI ChatGPT стал почти синонимом генеративного ИИ с момента запуска ещё в эпоху GPT-3. К настоящему моменту устоявшимися лидерами считаются OpenAI GPT-4o и Anthropic Claude-3, которые за последний год почти не знали конкурентов в тестах.

 Источник изображения: x.com/lmsysorg

Источник изображения: x.com/lmsysorg

Один из наиболее популярных тестов — LMSYS Chatbot Arena. Он предлагает моделям различные задачи и присваивает им оценки. Актуальная версия GPT-4o смогла набрать 1286 баллов, а Claude-3 — 1271 балл. У предыдущей Google Gemini 1.5 Pro рейтинг был 1261, но выпущенная 1 августа Gemini 1.5 Pro 0801 внезапно получила колоссальные 1300 баллов. Это может свидетельствовать, что новая нейросеть Google способнее своих конкурентов, но бенчмарки не всегда точно отражают, что может и чего не может модель ИИ.

Современный рынок чат-ботов уже достаточно созрел, чтобы предложить потребителю несколько вариантов и дать ему возможность самому решить, какой ИИ подходит лучше всего. Пока нет ясности, станет ли экспериментальная Gemini 1.5 Pro версией по умолчанию в будущем. Она остаётся общедоступной, но с экспериментальным статусом может быть закрыта или радикально отредактирована по соображениям безопасности или другим причинам.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
Аудитория Threads выросла на 35 млн пользователей в ноябре 2024 года 43 мин.
Devolver проведёт церемонию Devolver Delayed Awards 2024, на которой наградит разработчиков за героический перенос игр 8 ч.
Нашумевший ИИ-генератор видео Sora без разрешения OpenAI приоткрыли для всех желающих 9 ч.
Показатели падают, но CD Projekt не унывает — продажи Cyberpunk 2077 взяли новую высоту 9 ч.
«Можем сделать новую ведьмачью сагу замечательной»: CD Projekt подтвердила, что The Witcher 4 перешла в стадию активной разработки 10 ч.
Поддержка до 2026 года, сюрприз на юбилей и бесплатный контент: 11 bit studios раскрыла план развития Frostpunk 2 11 ч.
Бразилия пригрозила Apple ежедневными штрафами за ограничения в App Store 13 ч.
Госдума приняла закон о миллионных штрафах за утечки персональных данных 14 ч.
Бесплатный, открытый, свободный: вышла бета-версия российского игрового движка Nau Engine 14 ч.
Microsoft начала самовольно собирать данные из документов Word и Excel для обучения ИИ — отказаться от этого непросто 15 ч.
Власти Южной Кореи выделят ещё $10 млрд помощи национальной полупроводниковой отрасли в следующем году 2 ч.
Новая статья: Обзор робота-пылесоса Midea VCR M7 EVO: уборка помещения — моё главное призвание 6 ч.
DIGITIMES Research ожидает снижение поставок серверов в IV квартале — «виноваты» будут суперускорители NVIDIA GB200 NVL72 7 ч.
Asus выпустила материнскую плату с повёрнутым сокетом для Intel Arrow Lake-S 7 ч.
Новая статья: Обзор и тест двухбашенного кулера Ocypus Iota A62 BK: кто ты, воин? 7 ч.
Blackstone и EQT создают совместное $3,5-млрд предприятие для строительства газопровода — на фоне бума ЦОД и ИИ 7 ч.
Huawei Mate 70 получили новый суверенный процессор Kirin 9020, который очень похож на старый 8 ч.
На фоне ажиотажа вокруг ИИ акции японского производителя оптических кабелей выросли с начала года на 400 % 9 ч.
LG выпустила игровой IPS-монитор UltraGear 32GS75QN-B, который можно разогнать до 200 Гц 10 ч.
Huawei представила конкурента AirPods Pro с мощным шумоподавлением и автономностью до 33 часов за $200 10 ч.