реклама
Новости Software

«Сбер» выложил в открытый доступ русскоязычную ИИ-модель ruGPT-3.5

Инженеры «Сбера» выложили в открытый доступ нейросетевую модель ruGPT-3.5, лежащую в основе сервиса GigaChat, который до сих пор проходит стадию закрытого тестирования. Лицензия MIT позволяет использовать материалы проекта в коммерческих целях.

 Структура датасета ruGPT-3.5. Источник изображения: habr.com

Структура датасета ruGPT-3.5. Источник изображения: habr.com

Важнейшим недостатком открытых больших языковых моделей вроде Meta LlaMA является ограниченная поддержка русского языка — обычно это русский раздел «Википедии» и некоторое количество общедоступных текстов. Это оказывает негативное влияние на понимание моделью языка и качество её ответов. Модель ruGPT-3.5, основанная на архитектуре OpenAI GPT-3, создана в первую очередь для работы в русскоязычной среде, поэтому она более качественно обрабатывает такие запросы.

Обучение модели производилось в два этапа. Первый этап продлился 1,5 месяца — за это время платформа обработала 300 Гбайт данных: книги, энциклопедийные и научные статьи, социальные ресурсы и другие источники. Потребовались ресурсы 512 ускорителей NVIDIA V100. На втором этапе проводилось дообучение на 110 Гбайт данных из датасета The Stack, юридических документов и обновлённых текстов «Википедии» — это заняло три недели и потребовало 200 ускорителей NVIDIA A100.

В результате у ruGPT-3.5 13 млрд параметров при длине контекста 2048 токенов — для сравнения, привели пример разработчики, рассказ А. П. Чехова «Хамелеон» разбивается на 1650 токенов при его длине в 901 слово.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
Визг шин, рёв двигателей и атмосфера 90-х: гоночная игра #Drive Rally устремилась к выходу из раннего доступа 4 мин.
Inzoi установила новый рекорд скорости продаж для Krafton— игру раскупают быстрее, чем PUBG 58 мин.
«Буду плакать слезами счастья»: датамайнеры Apex Legends заявили, что Titanfall 3 жива и выйдет в 2026 году 3 ч.
ИИ впервые стал студентом вуза — Венский университет прикладного искусства зачислил систему Flynn 3 ч.
Бенчмарк MLPerf показал, что ускорители AMD Instinct не уступают NVIDIA H200 3 ч.
Россия заняла четвёртое место по размеру аудитории в Kingdom Come: Deliverance 2, хотя игра в стране даже не продаётся 4 ч.
Трамп заявил, что сделка с TikTok близка к заключению, и тарифы могут пригодиться в переговорах с Китаем 7 ч.
Amazon добавила ИИ-функцию кратких обзоров книг Kindle, но предупредила о спойлерах 9 ч.
Инвесторы потребовали от Ubisoft пересмотреть условия сделки с Tencent и готовы добиваться своего через суд 14 ч.
Microsoft запустила собственный ИИ-поисковик Copilot Search 15 ч.
Parasail привлекла $10 млн стартового капитала и выступила «агрегатором ускорителей» с парком чипов больше, чем у Oracle 36 мин.
Богатейшие люди мира за день потеряли $208 млрд из-за новых пошлин США 2 ч.
Cyclotech начала тесты проворного летающего автомобиля с роторными «бочонками» вместо пропеллеров 2 ч.
NVIDIA может переключиться на выполнение заказов только из Китая в преддверии усиления санкций США 2 ч.
Zalman CNPS14X Duo Black — универсальный кулер для мощных процессоров 3 ч.
Вскоре SpaceX впервые запустит Starship на б/у ускорителе Super Heavy 3 ч.
Tenstorrent представила ИИ-ускорители Blackhole на архитектуре RISC-V 4 ч.
Один из крупнейших производителей серверов в мире анонсировал локализацию в США после повышения Трампом пошлин 4 ч.
Jabil представила оптические трансиверы для 1,6-Тбит/с сетей 4 ч.
Объем мирового рынка генеративного ИИ в 2024 году вырос более чем в четыре раза 5 ч.