реклама
Новости Software

Google представила компактную языковую модель Gemma 2 2B, которая превосходит GPT 3.5 Turbo

Компания Google представила Gemma 2 2B — компактную, но мощную языковую модель искусственного интеллекта (LLM), которая может составить конкуренцию лидерам отрасли, несмотря на свой значительно меньший размер. Новая языковая модель, содержащая всего 2,6 миллиарда параметров, демонстрирует производительность не хуже гораздо более крупных аналогов, включая OpenAI GPT-3.5 и Mistral AI Mixtral 8x7B.

 Источник изображений: Google

Источник изображений: Google

В тесте LMSYS Chatbot Arena, популярной онлайн-платформы для сравнительного тестирования и оценки качества моделей искусственного интеллекта, Gemma 2 2B набрала 1130 баллов. Этот результат немного опережает результаты GPT-3.5-Turbo-0613 (1117 баллов) и Mixtral-8x7B (1114 баллов) — моделей, обладающих в десять раз большим количеством параметров.

Google сообщает, что Gemma 2 2B также набрала 56,1 балла в тесте MMLU (Massive Multitask Language Understanding) и 36,6 балла в тесте MBPP (Mostly Basic Python Programming), что является значительным улучшением по сравнению с предыдущей версией.

Gemma 2 2B бросает вызов общепринятому мнению, что более крупные языковые модели изначально работают лучше компактных. Производительность Gemma 2 2B показывает, что сложные методы обучения, эффективность архитектуры и высококачественные наборы данных могут компенсировать недостаток в числе параметров. Разработка Gemma 2 2B также подчеркивает растущую важность методов сжатия и дистилляции моделей ИИ. Возможность эффективно компилировать информацию из более крупных моделей в более мелкие открывает возможности к созданию более доступных инструментов ИИ, при этом не жертвуя их производительностью.

Google обучила Gemma 2 2B на огромном наборе данных из 2 триллионов токенов, используя системы на базе своих фирменных ИИ-ускорителей TPU v5e. Поддержка нескольких языков расширяют её потенциал для применения в глобальных приложениях. Модель Gemma 2 2B имеет открытый исходный код. Исследователи и разработчики могут получить доступ к модели через платформу Hugging Face. Она также поддерживает различные фреймворки, включая PyTorch и TensorFlow.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
MTS AI выпустила ИИ-модель Cotype Pro 2, которая станет основой ИИ-агентов для бизнеса 9 мин.
Мир в коробке с саранчой и одиночный кооператив: подробности отменённого ответвления Disco Elysium про Куно и Куну 60 мин.
Дональд Трамп намерен обсудить сделку с TikTok сегодня 4 ч.
Картинки в стиле Ghibli перегрузили серверы OpenAI — выпуск новых функций замедлен 11 ч.
У Ubisoft пока нет чёткого плана работы новой компании с Tencent — инвесторы и сотрудники нервничают 13 ч.
«Загрузки быстрее, чем в Doom (2016)»: эксперт Digital Foundry остался в восторге от Doom: The Dark Ages 13 ч.
Консоли задержат релиз постапокалиптического стелс-экшена Steel Seed от создателей Close to the Sun — объявлена новая дата выхода 15 ч.
ИИ-модель Llama запустили на ПК из прошлого тысячелетия на базе Windows 98 16 ч.
ChatGPT остаётся самым популярным чат-ботом с ИИ, но у конкурентов аудитория тоже растёт 18 ч.
Google сделает сквозное шифрование в Gmail доступным для всех 18 ч.
Meta выпустит умные очки с дисплеем и ценником выше $1000 уже к концу года 28 мин.
В Китае электролётам EHang разрешили перевозить людей по воздуху, но услуги аэротакси пока под запретом 30 мин.
Poco F7 Ultra и Poco F7 Pro — смартфоны с мощными чипами, продвинутыми системами камер и высокой надёжностью 40 мин.
НПК «Атроник» выпустила одноплатный компьютер формата PC/104-Plus с чипом Vortex86 DX3 42 мин.
Hyundai представила Insteroid — концепт электромобиля в стиле гоночных симуляторов 3 ч.
Amazon возобновила доставку товаров дронами в Техасе и Аризоне после двухмесячного перерыва 3 ч.
UMC открыла в Сингапуре новое передовое предприятие, снижая зависимость от Тайваня 5 ч.
Intel: Panther Lake возьмут всё самое лучше от актуальных Core и ангстремного техпроцесса 18A, но выйдут в 2026 году 7 ч.
Новая статья: Выбираем кулер для процессора Intel LGA1700 до 2 000 рублей 12 ч.
Garmin представила смарт-часы Vivoactive 6 с мониторингом энергии пользователя за $300 13 ч.