реклама
Новости Software

Китайцы представили открытую ИИ-модель DeepSeek V3 — она быстрее GPT-4o и её обучение обошлось намного дешевле

Китайская компания DeepSeek представила мощную открытую модель искусственного интеллекта DeepSeek V3 — лицензия позволяет её беспрепятственно скачивать, изменять и использовать в большинстве проектов, включая коммерческие.

 Источник изображения: and machines / unsplash.com

Источник изображения: and machines / unsplash.com

DeepSeek V3 справляется со множеством связанных с обработкой текста задач, в том числе написание статей, электронных писем, перевод и генерация программного кода. Модель превосходит большинство открытых и закрытых аналогов, показали результаты проведённого разработчиком тестирования. Так, в связанных с программированием задачах она оказалась сильнее, чем Meta Llama 3.1 405B, OpenAI GPT-4o и Alibaba Qwen 2.5 72B; DeepSeek V3 также проявила себя лучше конкурентов в тесте Aider Polyglot, проверяющем, среди прочего, её способность генерировать код для существующих проектов.

Модель была обучена на наборе данных в 14,8 трлн проектов; будучи развёрнутой на платформе Hugging Face, DeepSeek V3 показала размер в 671 млрд параметров — примерно в 1,6 раза больше, чем Llama 3.1 405B, у которой, как можно догадаться, 405 млрд параметров. Как правило, число параметров, то есть внутренних переменных, которые используются моделями для прогнозирования ответов и принятия решений, коррелирует с навыками моделей: чем больше параметров, тем она способнее. Но для запуска таких систем ИИ требуется больше вычислительных ресурсов.

DeepSeek V3 была обучена за два месяца в центре обработки данных на ускорителях Nvidia H800 — сейчас их поставки в Китай запрещены американскими санкциями. Стоимость обучения модели, утверждает разработчик, составила $5,5 млн, что значительно ниже расходов OpenAI на те же цели. При этом DeepSeek V3 политически выверена — она отказывается отвечать на вопросы, которые официальный Пекин считает щекотливыми.

В ноябре тот же разработчик представил модель DeepSeek-R1 — аналог «рассуждающей» OpenAI o1. Одним из инвесторов DeepSeek является китайский хедж-фонд High-Flyer Capital Management, который принимает решения с использованием ИИ. В его распоряжении есть несколько собственных кластеров для обучения моделей. Один из последних, по некоторым сведениям, содержит 10 000 ускорителей Nvidia A100, а его стоимость составила 1 млрд юаней ($138 млн). High-Flyer стремится помочь DeepSeek в разработке «сверхразумного» ИИ, который превзойдёт человека.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
Мартовское обновление Windows 11 24H2 привело к массовым сбоям и «Синим экранам смерти» 18 мин.
Новая статья: Monster Hunter Wilds — новый взгляд, такой же хит. Рецензия 24 мин.
На официальном сайте модов для Starfield засветился логотип PlayStation — инсайдер утверждает, что Bethesda готовит игру для PS5 47 мин.
Власти Китая ограничили выезд из страны сотрудникам DeepSeek 2 ч.
MWS запустила облачного интегратора 3 ч.
Эпоха Google Assistant подошла к концу: скоро его заменит умный ИИ-помощник Gemini на всех Android-смартфонах 4 ч.
«Всё, о чём мы уже говорили, до сих пор в разработке»: Saber Interactive успокоила фанатов, заждавшихся ремейк Star Wars: Knights of the Old Republic 4 ч.
Anthropic научилась выявлять враньё и сокрытие истинных целей ИИ — при помощи ИИ 5 ч.
Ubisoft начала искать инвесторов для новой компании, которая будет владеть крупнейшими франшизами издателя — в том числе Assassin’s Creed 6 ч.
Huawei заподозрили в подкупе чиновников Европарламента «чрезмерными подарками и едой» 6 ч.
Геотермальные источники при правильном подходе смогут удовлетворить энергетические потребности ИИ ЦОД в США 50 мин.
Арктические проекты подводных интернет-кабелей замораживаются один за другим 4 ч.
В России стартовали продажи ноутбуков Honor MagicBook X14 Plus и X16 Plus по цене от 110 тыс. рублей 4 ч.
В Китае создали быструю электромобильную зарядку с проводами из жидкого металла — ток буквально течёт по шлангам 5 ч.
Seagate выпустила внешний SSD для поклонников Genshin Impact 6 ч.
Gigabyte представила плату Z890 Aorus Tachyon Ice с повёрнутым на 90° сокетом для экстремального оверклокинга 7 ч.
«Белтелеком» проложит сегмент ВОЛС TEA NEXT на территории Беларуси 7 ч.
Новая статья: Обзор NVIDIA GeForce RTX 5090: почему игровых флагманов больше не существует 9 ч.
В России упали продажи ноутбуков — магазины вынужденно снижают цены 9 ч.
Asus изменила механизм на материнских платах, который зажёвывал видеокарты 9 ч.