Сегодня 25 апреля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → gpu
Быстрый переход

NVIDIA представила самый мощный чип в мире — Blackwell B200, который откроет путь к гигантским нейросетям

Компания Nvidia в рамках конференции GTC 2024 представила ИИ-ускорители следующего поколения на графических процессорах с архитектурой Blackwell. По словам производителя, грядущие ИИ-ускорители позволят создавать ещё более крупные нейросети, в том числе работать с большими языковыми моделями (LLM) с триллионами параметров, и при этом будут до 25 раз энергоэффективнее и экономичнее в сравнении с Hopper.

 Источник изображений: Nvidia

Источник изображений: Nvidia

Архитектура GPU Blackwell получила название в честь американского математика Дэвида Блэквелла (David Harold Blackwell) и включает в себя целый ряд инновационных технологий для ускорения вычислений, которые помогут совершить прорыв в обработке данных, инженерном моделировании, автоматизации проектирования электроники, компьютерном проектировании лекарств, квантовых вычислениях и генеративном ИИ. Причём на последнем в Nvidia делают особый акцент: «Генеративный ИИ — это определяющая технология нашего времени. Графические процессоры Blackwell — это двигатель для новой промышленной революции», — подчеркнул глава Nvidia Дженсен Хуанг (Jensen Huang) в рамках презентации.

Графический процессор Nvidia B200 производитель без лишней скромности называет самым мощным чипом в мире. В вычислениях FP4 и FP8 новый GPU обеспечивает производительность до 20 и 10 Пфлопс соответственно. Новый GPU состоит из двух кристаллов, которые произведены по специальной версии 4-нм техпроцесса TSMC 4NP и объединены 2,5D-упаковкой CoWoS-L. Это первый GPU компании Nvidia с чиплетной компоновкой. Чипы соединены шиной NV-HBI с пропускной способностью 10 Тбайт/с и работают как единый GPU. Всего новинка насчитывает 208 млрд транзисторов.

 Один из кристаллов GPU Blackwell

Один из кристаллов Blackwell — в GPU таких кристаллов два

По сторонам от кристаллов GPU расположились восемь стеков памяти HBM3E общим объёмом 192 Гбайт. Её пропускная способность достигает 8 Тбайт/с. А для объединения нескольких ускорителей Blackwell в одной системе новый GPU получил поддержку интерфейса NVLink пятого поколения, которая обеспечивает пропускную способность до 1,8 Тбайт/с в обоих направлениях. С помощью данного интерфейса (коммутатор NVSwitch 7.2T) в одну связку можно объединить до 576 GPU.

Одними из главных источников более высокой производительности B200 стали новые тензорные ядра и второе поколение механизма Transformer Engine. Последний научился более тонко подбирать необходимую точность вычислений для тех или иных задач, что влияет и на скорость обучения и работы нейросетей, и на максимальный объём поддерживаемых LLM. Теперь Nvidia предлагает тренировку ИИ в формате FP8, а для запуска обученных нейросетей хватит и FP4. Но отметим, что Blackwell поддерживает работу с самыми разными форматами, включая FP4, FP6, FP8, INT8, BF16, FP16, TF32 и FP64. И во всех случаях кроме последнего есть поддержка разреженных вычислений.

Флагманским ускорителем на новой архитектуре станет Nvidia Grace Blackwell Superchip, в котором сочетается пара графических процессоров B200 и центральный Arm-процессор Nvidia Grace с 72 ядрами Neoverse V2. Данный ускоритель шириной в половину серверной стойки обладает TDP до 2,7 кВт. Производительность в операциях FP4 достигает 40 Пфлопс, тогда как в операциях FP8/FP6/INT8 новый GB200 способен обеспечить 10 Пфлопс.

Как отмечает сама Nvidia, новинка обеспечивает 30-кратный прирост производительности по сравнению с Nvidia H100 для рабочих нагрузок, связанных с большими языковыми моделями, а она до 25 раз более экономична и энергетически эффективна.

Ещё Nvidia представила систему GB200 NVL72 — фактически это серверная стойка, которая объединяет в себе 36 Grace Blackwell Superchip и пару коммутаторов NVSwitch 7.2T. Таким образом данная система включает в себя 72 графических процессора B200 Blackwell и 36 центральных процессоров Grace, соединенных NVLink пятого поколения. На систему приходится 13,5 Тбайт памяти HBM3E с общей пропускной способностью до 576 Тбайт/с, а общий объём оперативной памяти достигает 30 Тбайт.

Платформа GB200 NVL72 работает как единый GPU с ИИ-производительностью 1,4 эксафлопс (FP4) и 720 Пфлопс (FP8). Эта система станет строительным блоком для новейшего суперкомпьютера Nvidia DGX SuperPOD.

На переднем плане HGX-система с восемью Blackwell. На заднем — суперчип GB200

Наконец, Nvidia представила серверные системы HGX B100, HGX B200 и DGX B200. Все они предлагают по восемь ускорителей Blackwell, связанных между собой NVLink 5. Системы HGX B100 и HGX B200 не имеют собственного CPU, а между собой различаются только энергопотреблением и как следствие мощностью. HGX B100 ограничен TDP в 700 Вт и обеспечивает производительность до 112 и 56 Пфлопс в операциях FP4 и FP8/FP6/INT8 соответственно. В свою очередь, HGX B200 имеет TDP в 1000 Вт и предлагает до 144 и 72 Пфлопс в операциях FP4 и FP8/FP6/INT8 соответственно.

Наконец, DGX B200 копирует HGX B200 в плане производительности, но является полностью готовой системой с парой центральных процессоров Intel Xeon Emerald Rapids. По словам Nvidia, DGX B200 до 15 раз быстрее в задачах запуска уже обученных «триллионных» моделей по сравнению с предшественником.

Для создания наиболее масштабных ИИ-систем, включающих от 10 тыс. до 100 тыс. ускорителей GB200 в рамках одного дата-центра, компания Nvidia предлагает объединять их в кластеры с помощью сетевых интерфейсов Nvidia Quantum-X800 InfiniBand и Spectrum-X800 Ethernet. Они также были анонсированы сегодня и обеспечат передовые сетевые возможности со скоростью до 800 Гбит/с.

Свои системы на базе Nvidia B200 в скором времени представят многие производители, включая Aivres, ASRock Rack, ASUS, Eviden, Foxconn, GIGABYTE, Inventec, Pegatron, QCT, Wistron, Wiwynn и ZT Systems. Также Nvidia GB200 в составе платформы Nvidia DGX Cloud, а позже в этом году решения на этом суперчипе станут доступны у крупнейших облачных провайдеров, включая AWS, Google Cloud и Oracle Cloud.

Дженсен Хуанг объяснил, почему ИИ-ускорители Nvidia лучше бесплатных ускорителей конкурентов

На Экономическом саммите SIEPR Дженсен Хуанг (Jensen Huang), глава компании Nvidia, занимающей ведущие позиции в секторе аппаратного обеспечения для искусственного интеллекта (ИИ), заявил о непревзойдённом качестве и ценности продукции своей компании. По его словам, даже если бы конкуренты предложили свои чипы бесплатно, они всё равно не смогли бы соперничать с высококачественными, хотя и дорогими альтернативами Nvidia.

 Источник изображений: Nvidia

Источник изображений: Nvidia

Компания Nvidia, достигшая третьего места в мире по объёму рыночной капитализации в размере $2,19 трлн, тотально доминирует в области продвинутого аппаратного обеспечения для ИИ. Это не только подняло Хуанга на 20-е место в индексе миллиардеров Bloomberg с состоянием в $77,2 млрд, но и подтвердило статус Nvidia как ключевого игрока на рынке.

В ходе дискуссии с Джоном Шовеном (John Shoven), профессором экономики Стэнфордского университета (SIEPR), Хуанг отметил, что Nvidia сталкивается с беспрецедентным уровнем конкуренции, борясь не только с прямыми конкурентами, но и с клиентами, которые используют продукцию Nvidia для разработки собственных решений. Тем не менее, компания продолжает придерживаться политики «открытой книги», сотрудничая почти со всеми участниками отрасли и предоставляя информацию о текущих и будущих проектах своих чипов.

Однако по поводу этой открытости есть вопросы. В прошлом месяце стартап Groq, создающий ИИ-чипы для запуска в больших языковых моделях (LLM), отметил, что клиентам Nvidia приходится скрывать свои сделки по приобретению ИИ-ускорителей у конкурентов, чтобы избежать возможных задержек в выполнении заказов со стороны Nvidia. Подобная мера якобы применяется Nvidia как форма наказания. В свою очередь, бывший вице-президент AMD Скотт Херкельман (Scott Herkelman) описал компанию Nvidia как «картель производителей GPU», контролирующий всё предложение на рынке. Эти утверждения поднимают вопросы о реальной степени открытости и сотрудничества Nvidia с участниками отрасли, а также о методах, которыми компания обеспечивает своё доминирующее положение на рынке аппаратного обеспечения для ИИ.

Говоря о цене ИИ-ускорителей Nvidia и о том, предлагают ли конкуренты лучшее соотношение цены и качества, Хуанг отметил, что о ценах думают только те, кто покупает и продает чипы, а те, кто управляет центрами обработки данных, думают о совокупной стоимости владения (TCO). Глава Nvidia добавил, что её чипы демонстрируют отличный показатель прямых и косвенных затрат благодаря таким факторам, как время развертывания, производительность, использование и гибкость. По словам Хуанга, совокупная стоимость владения картами Nvidia настолько впечатляет, что даже если бы конкуренты раздавали свои чипы бесплатно, продукция Nvidia всё равно обходилась бы дешевле.

Intel подтвердила планы по выпуску видеокарт Arc Battlemage в следующем году

На недавно проведённой презентации для своих партнёров компания Intel подтвердила, что планирует на наступающий 2024 год выпуск дискретных графических ускорителей с кодовым именем Battlemage на основе графической архитектуры нового поколения Arc Xe².

 Источник изображений: Intel

Источник изображений: Intel

На одном из представленных Intel в рамках презентации слайдов показано, какие производитель планирует выпускать новые продукты в клиентском сегменте в следующем году. В частности, компания собирается выпустить новые ПК-процессоры, новые чипы для рабочих станций, а также новые графические ускорители Battlemage.

В своих более ранних планах компания Intel отмечала, что запуск видеокарт серии Battlemage по времени будет связан с выходом потребительских процессоров Meteor Lake и Arrow Lake. Новую серию процессоров Meteor Lake (они же Core Ultra) уже выпустила, а чипы Arrow Lake ожидаются когда-то в 2024 года. Судя по всему, тогда же будут представлены видеокарты Battlemage.

Ранее сообщалось, что Intel преступила к тестированию в своих лабораториях как минимум одной модели графического процессора из новой серии Battlemage. Речь идёт о некоем чипе с маркировкой BMG G10, который, как предполагается, станет наследником Alchemist ACM-G10, используемого в видеокарте Arc A770. По слухам, новый GPU получит вдвое больше графических ядер Xe, а именно 64, по сравнению с актуальным ACM-G10. Также известно, что Intel хочет сохранить поддержку 256-битной шины памяти для данного GPU. Также ожидается, что GPU серии Battlemage будут производиться с использованием 4-нм техпроцесса компании TSMC.

Поставки GPU в третьем квартале выросли на 16,8 % — AMD прибавила сильнее Intel и NVIDIA

Поставки графических процессоров для ПК в третьем квартале 2023 выросли по сравнению с предыдущим кварталом на 16,8 % и достигли показателя в 71,9 млн единиц, подсчитали аналитики агентства Jon Peddie Research. В то же время поставки центральных процессоров снизились на 5,1 % по сравнению с аналогичным периодом прошлого года, что оказалось самым значительным падением за последние пять лет.

 Источник изображения: AMD

Источник изображения: AMD

Согласно прогнозу Jon Peddie Research, средний ежегодный рост поставок GPU в период с 2022 по 2026 годы составит 4,18 % и концу прогнозируемого периода общее количество используемых графических процессоров в мире достигнет 5 млрд. В течение следующих пяти лет доля дискретных видеокарт в составе ПК достигнет 30 %, считают эксперты.

 Источник изображения здесь и ниже: Jon Peddie Research

Источник изображения здесь и ниже: Jon Peddie Research

Общая доля GPU компании AMD на рынке в третьем квартале текущего года увеличилась на 2,4 % по сравнению с прошлым кварталом. В свою очередь доля Intel снизилась на 3,7 %, а рыночная доля NVIDIA увеличилась на 1,30 %, как показано на графике ниже. Здесь важно отметить, что аналитики в данном случае считают как встроенные, так и дискретные GPU, что и объясняет столько огромную долю Intel — графические процессоры есть в большинстве её процессоров.

В целом поставки графических процессоров увеличились в третьей четверти текущего года на 16,8 % по сравнению с прошлым кварталом. AMD увеличила поставки сильнее всего — на 36,6 %. Компания NVIDIA приросла более скромными 25,2 %, а Intel — на 10,4 %.

Поставки дискретных видеокарт партнёрами NVIDIA, AMD и Intel совокупно выросли на 37,4 % по сравнению со вторым кварталом текущего года. Общие продажи центральных процессоров выросли за третий квартала на 15,2 % в последовательном сравнении, но оказались ниже на 6,0 % по сравнению с показателем аналогичного периода прошлого года.

Как отмечает Jon Peddie Research, на третий квартал обычно приходится самый сильный рост поставок GPU. В этом году поставки в третьем квартале не только выросли на 16,8% по сравнению с предыдущим, но к тому же рост почти вдвое превысил средний показатель за 10 лет (8,8 %).

«Рынок графических процессоров и ПК пережил уже несколько бурных взлётов и падений: криптовалютные бумы, рецессия 2008 года, пандемия COVID-19, — говорит Джон Педди (Jon Peddie), президент Jon Peddie Research. — Все они приводили рынок ПК в упадок, и всегда рынок восстанавливался, но не так высоко, как раньше. И каждый раз чрезмерно восторженные прогнозисты пытались вложить в это свои фантазии и желания. Нынешнее восстановление ничем не отличается от предыдущего, и его превозносят слишком высоко, в то время как оно в значительной степени отражает очистку и выравнивание каналов поставок. Все последние три квартала видеокарты продавались, не в привычных объемах и пусть с жалобами на цены, но все же продавались. Ошибка заключается в постоянном поиске сенсаций. Это утомляет».

NVIDIA представила H200 — самый быстрый в мире ускоритель вычислений для мощнейших ИИ

Компания NVIDIA представила сегодня самый мощный в мире ускоритель вычислений — H200. Он построен на уже знакомой архитектуре NVIDIA Hopper, и фактически представляет собой обновлённую с помощью более скоростной памяти HBM3e версию популярного флагманского ускорителя H100. Новая память позволит ускорителю быстрее работать с огромными объемами данных для генеративного ИИ и высокопроизводительных вычислительных нагрузок.

 Источник изображений: NVIDIA

Источник изображений: NVIDIA

NVIDIA H200 — это первый графический процессор с памятью HBM3e, которая отличается от обычной HBM3 более высокой скоростью. NVIDIA H200 получил 141 Гбайт памяти HBM3e со скоростью 4,8 Тбайт/с, что почти вдвое больше по объему и в 2,4 раза больше по пропускной способности по сравнению с памятью ускорителя прошлого поколения NVIDIA A100. Для сравнения, у H100 имеется 80 Гбайт HBM3 со скоростью 3,35 Тбайт/с, тогда как грядущий ускоритель AMD Instinct MI300X получит 192 Гбайт памяти HBM3 со скоростью 5,2 Тбайт/с.

За счёт апгрейда памяти H200 обеспечит значительный рост производительности в работе уже обученных систем искусственного интеллекта (инференсе). Например, NVIDIA обещает увеличение скорости работы большой языковой модели Llama 2 с 70 млрд параметров в 1,9 раза, по сравнению с H100. А работу обученной модели GPT-3 с 175 млрд параметров новинка ускорит в 1,6 раза.

NVIDIA H200 будет доступна в серверных платах NVIDIA HGX H200 в конфигурациях с четырьмя и восемью ускорителями. Причём новинки совместимы как с аппаратным, так и с программным обеспечением систем HGX H100. Производители серверов, включая ASRock Rack, ASUS, Dell Technologies, Eviden, GIGABYTE, Hewlett Packard Enterprise, Ingrasys, Lenovo, QCT, Supermicro, Wistron и Wiwynn выпустят свои системы с ускорителями H200. В свою очередь Amazon Web Services, Google Cloud, Microsoft Azure и Oracle Cloud Infrastructure станут одними из первых поставщиков облачных услуг, которые со следующего года начнут предлагать инстансы на базе H200.

NVIDIA отмечает, что система HGX H200 с восемью ускорителями обеспечивает производительность более 32 Пфлопс (32 квадриллиона операций в секунду) в вычислениях FP8 для глубокого обучения. Причём такая система обеспечит в сумме 1,1 Тбайт памяти с высокой пропускной способностью для высочайшей производительности в генеративных приложениях ИИ и HPC.

В паре с Arm-процессорами NVIDIA Grace со сверхбыстрым интерфейсом NVLink-C2C H200 образует суперчип GH200 Grace Hopper с HBM3e. Такие интегрированные модули NVIDIA позиционирует в качестве высокопроизводительных решений для работы с приложениями HPC и ИИ гигантского масштаба.

Ещё NVIDIA представила плату Quad GH200 с четырьмя суперчипами GH200, где все ускорители связаны друг с другом посредством NVLink по схеме каждый-с-каждым. Суммарно плата несёт более 2 Тбайт высокоскоростной памяти и 288 ядер Arm, а её производительность достигает 16 Пфлопс в FP8. До конца будущего года суммарная ИИ-производительность систем с GH200, по оценкам NVIDIA, достигнет 200 Эфлопс.

Ускоритель NVIDIA H200 станет доступен со второго квартала 2024 года.

Imagination Technologies представила графическую архитектуру IMG DXD с поддержкой DirectX 11 для облачного гейминга, ПК и ноутбуков

Разработчик графических процессоров Imagination Technologies, решениях которой лежат во многих мобильных SoC, а также в китайских видеокартах Innosilicon, представила новую графическую архитектуру IMG DXD. Как сообщается, она поддерживает более широкий набор API, по сравнению с предыдущими решениями компании.

 Источник изображений: Imagination Technologies

Источник изображений: Imagination Technologies

В портфолио компании Imagination Technologies имеется несколько графических архитектур и решений на их основе. Например, A-серия GPU предназначена для смарт-ТВ, B-серия разработана для мобильных графический решений начального и среднего уровня. Архитектуры CXT и DXT предназначены для премиальных мобильных устройств. В ассортименте также имеется масштабируемая архитектура CXM. Недавно представленная IMG DXD, в свою очередь, предназначена для создания производительных графических решений, которые могут применяться в серверах для облачных игровых сервисов, а также использоваться в настольных ПК и ноутбуках.

Для графической архитектуры IMG DXD заявлена поддержка Vulkan 1.3, OpenGL 4.6 через Zink, OpenGL ES 3.2, OpenCL 3.0 и, что более важно, DirectX 11 Feature Level 11_0. Этот набор делает решения IMG DXD пригодными для множества видеоигр, однако отсутствие поддержки DirectX 12 всё-таки ограничивает применение в этом направлении. Для IMG DXD также заявляется поддержка Windows 10, но у неё отсутствует поддержка Windows 11.

В графических процессорах на архитектуре IMG DXD будет использоваться конвейер Pipeline Data Masters, который выстраивает задачи в единый поток и оптимизирует рабочую нагрузку, что в конечном итоге повысит эффективности и быстродействие GPU. Конвейер разделён на несколько блоков, предназначенных для выполнения определённых функций, таких как обработка геометрии, пикселей, вычислений и служебные задач. Новый конвейер гарантирует, что выполнение следующей задачи должно начинаться сразу после завершения предыдущей.

Использование IMG DXD также подразумевает применение программируемой на C прошивки на базе RISC-V. Она отвечает за внешнее планирование задач для GPU и повышает скорость и эффективность этих операций на 40 %.

На базе архитектуры IMG DXD компания представила графический процессор IMG DXD-72-2304 MC2. Imagination Technologies заявляет, что графическая производительность на ядро стала в 2,25 раза выше, чем у GPU предыдущего поколения. В составе GPU используются два ядра, обеспечивающие производительность 4,6 терафлопс и скорость заполнения текстур до 144 гигатекселей в секунду, чего должно быть достаточно для разных игр, в частности, многопользовательских. С особенностями чипа можно ознакомиться на изображении выше.

Разработчик ChatGPT задумал создать собственный ИИ-чип, чтобы снизить зависимость от NVIDIA

Разработчик чат-бота на базе искусственного интеллекта ChatGPT, компания OpenAI, изучает возможность создания собственных ИИ-чипов. Это позволит снизить зависимость от производителей ускорителей, включая доминирующую на рынке компанию NVIDIA, а также обеспечить необходимое количество чипов для дальнейшей работы.

 Источник изображения: Pixabay

Источник изображения: Pixabay

По данным источников Reuters, в прошлом году в OpenAI обсуждались различные варианты решения проблемы нехватки весьма недешёвых ИИ-чипов. Рассматривались возможность создания собственного ИИ-чипа, более тесное сотрудничество с другими производителями таких чипов, включая NVIDIA, а также диверсификация поставщиков ускорителей вычислений.

Гендиректор Open AI Сэм Альтман (Sam Altman) назвал приобретение большего количества ИИ-чипов главным приоритетом для компании. Он указал на две основные проблемы: нехватку передовых ускорителей вычислений, на которые опирается ПО OpenAI, и «невероятные затраты» на эксплуатацию аппаратного обеспечения, отвечающего за работу продуктов компании.

OpenAI разрабатывает технологии генеративного ИИ на мощном суперкомпьютере. Его построила Microsoft и он включает в себя 10 000 графических процессоров NVIDIA. Согласно оценкам аналитика Bernstein Стейси Расгон (Stacy Rasgon), выполнение каждого запроса в ChatGPT обходится компании примерно в $0,04. Если количество запросов вырастет до десятых долей от количества поисковых запросов Google, то для работы чат-бота потребуется ИИ-чипов примерно на $48,1 млрд, а для поддержания стабильности работы понадобится ещё ускорителей на сумму около $16 млрд в год.

Пока неясно, будет ли OpenAI заниматься созданием собственного ИИ-чипа. Затраты на это могут составить сотни миллионов долларов в год, причём даже при выделении такой суммы успех не гарантирован. Ускорить процесс можно было бы с помощью приобретения компании, производящей чипы. По данным источника, OpenAI рассматривала такой вариант, и даже провела комплексную проверку потенциального объекта приобретения. Однако выяснить название этой компании не удалось.

Следует отметить, что реализация планов OpenAI по созданию собственного чипа, даже если это будет приобретение компании, займёт несколько лет, и компания тем временем будет зависеть от сторонних поставщиков, таких как NVIDIA и AMD.

Лаборатории Intel уже тестируют один из графических процессоров будущей серии Arc Battlemage

Компания Intel уже приступила к тестированию графических процессоров BMG G10, которые станут основной одной или нескольких моделей видеокарт из будущей серии Arc Battlemage. Об этом сообщил портал HardwareLuxx, журналисты которого приняли участие в экскурсии Intel Tech Tour.

 Источник изображения: VideoCardz

Источник изображения: VideoCardz

К сожалению, прессе не позволили делать фотографии в рамках мероприятия, однако они видели стопку GPU с припиской BMG G10. Предположительно, BMG G10 станет наследником Alchemist ACM-G10, который используется в видеокарте Arc A770. Но учитывая сложную схему наименований GPU Intel, пока непонятно, в видеокартах какого уровня может применяться данный графический процессор. Всё же следует отметить, что ACM-G12 (мобильные Arc A570M и A530M, а также профессиональная Arc Pro A60) стоит выше по иерархии, чем ACM-G11 (младшая Arc A380), хотя можно было бы предположить иное.

Упомянутый BGM G10 уже фигурировал в утечках дорожных карт будущих продуктов Intel. Его появление в видеокартах прогнозируется ко второму или третьему кварталу 2024 года. К этому моменту компания планировала выпустить как минимум два графических процессора — BMG G10 и BMG G21. Первый станет основой для видеокарт с TDP до 225 Вт, второй будет использоваться в видеокартах с TDP до 150 Вт.

 Источник изображения: RedGamingTech

Источник изображения: RedGamingTech

Что касается технических особенностей BMG G10, то предполагается, что он получит вдвое больше графических ядер Xe, а именно 64, по сравнению с актуальным ACM-G10. Также известно, что Intel хочет сохранить поддержку 256-битной шины памяти для данного GPU.

Анонс серии графических процессоров Intel Battlemage ожидается в 2024 году. Однако компания официально пока не подтверждала эту информацию. Согласно слухам, их дебют может состояться в первой половине будущего года.

NVIDIA представила суперчип GH200 Grace Hopper с памятью HBM3e и производительностью 4 Пфлопс

Компания NVIDIA в рамках конференции SIGGRAPH 2023 представила вычислительную платформу GH200 Grace Hopper SuperChip нового поколения, представляющую собой двухчиповую систему из центрального и графического процессоров. Она послужит для построения НРС-систем и ИИ-платформ. В её основе используется новое поколение суперчипа NVIDIA Grace, оснащённого набортной высокопроизводительной памятью HBM3e, обеспечивающей доступ к информации со скоростью 5 Тбайт/с.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

По словам NVIDIA, платформа GH200 Grace Hopper SuperChip нового поколения значительно превосходит по производительности своего предшественника. Один сервер на платформе GH200 Grace Hopper с двумя новыми суперчипами (то есть с двумя парами GPU+CPU) сможет предложить наличие 144 ядер Arm Neoverse, работающих в тандеме с 282 Гбайт передовой набортной высокопроизводительной памяти HBM3e. Такая конфигурация обеспечивает в 3,5 раза больше памяти и в три раза больше пропускной способности, чем предшественник. Производительность подобной платформы с парой суперчипов составляет 8 петафлопс.

«Для удовлетворения растущего спроса на генеративный ИИ центрам обработки данных требуются вычислительные платформы с особыми возможностями. Этот вопрос готова решить новая платформа GH200 Grace Hopper SuperChip, в которой применяется технология набортной памяти HBM3e с повышенной пропускной способностью. Она предлагает возможность объединения нескольких GPU для объединения производительности, а также позволяет создавать серверные системы, которые можно легко развернуть в любом месте центра обработки данных», — прокомментировал глава NVIDIA Дженсен Хуанг (Jensen Huang).

Суперчип Grace Hopper, лежащий в основе новой платформы, может быть объединён с такими же суперчипами с помощью шины NVIDIA NVLink. Эта высокоскоростная технология предоставляет графическому процессору полный доступ к памяти центрального процессора, обеспечивая суммарно 1,2 Тбайт быстрой памяти в случае конфигурации с двумя суперчипами. Это позволяет развёртывать крупномасштабные вычислительных системы, необходимые для решения комплексных задач, связанных с генеративными ИИ.

Память стандарта HBM3e, использующаяся в составе платформы GH200 Grace Hopper SuperChip нового поколения, обладает на 50 % более высокой производительностью по сравнению с HBM3 и обеспечивает совокупную пропускную способность на уровне 10 Тбайт/с в системе с несколькими платформами GH200 Grace Hopper SuperChip. Это позволяет платформе запускать в 3,5 раза более крупные ИИ-модели и обеспечивает значительный прирост общей производительности за счёт увеличенной в три раза пропускной способности памяти по сравнению с предшественником.

В NVIDIA отмечают, что на фоне растущего спроса на платформу Grace Hopper ведущие производители уже начали предлагать системы, построенные на базе суперчипа Grace Hopper. Новая платформа Grace Hopper SuperChip следующего поколения с памятью HBM3e полностью совместима со спецификациями серверной модульной архитектуры NVIDIA MGX, которая была представлена на выставке Computex 2023. Такая совместимость гарантирует, что любой производитель серверных решений сможет быстро и с минимальными затратами интегрировать Grace Hopper в более чем 100 вариантов серверов, представленных на рынке.

Внедрние новой платформы NVIDIA ведущими производителями серверных систем начнётся во втором квартале 2024 года.

Китайская Denglin Technology начнёт массово выпускать GPU, совместимые с технологией NVIDIA CUDA

Шанхайский стартап Denglin Technology, разработчик графических процессоров, получил финансирование от Китайского фонда инвестиций в Интернет (CIIF), созданного при поддержке Государственного управления киберпространством Китая (CAC) и Министерства финансов КНР. Средства позволят компании ускорить производство и коммерциализацию совместимых с CUDA и OpenCL графических процессоров, способных конкурировать с продукцией NVIDIA.

 Источник изображения: Denglinai

Источник изображения: Denglinai

Denglin планирует развивать всю свою линейку продуктов, в том числе ускорить запуск массового производства флагманских GPU нового поколения Goldwasser, которые прежде всего предназначены для использования в приложениях с ИИ. Отмечается, что Goldwasser — это первый в Китае GPU корпоративного класса, успешно применяемый в масштабных коммерческих приложениях.

Одной из особенностей GPU Goldwasser является архитектура Denglin GPU+, которая позволяет реализовать программно-определяемую технологию гетерогенных вычислений на кристалле. Наиболее интригующим моментом является то, что компания заявляет о прямой совместимости с такими программными архитектурами, как CUDA от NVIDIA. Таким образом, финансирование со стороны государства может использоваться для создания конкурирующих с NVIDIA фреймворков CUDA. Конечно, пока неясно, сможет ли Denglin создать достаточно конкурентоспособный чип, чтобы положить конец доминированию NVIDIA на рынке графических процессоров для ИИ, но такие амбиции у компании, безусловно, есть.

Основатели Denglin Technology Ли Цзяньвэнь (Li Jianwen) и Ван Пин (Wang Ping) — выпускники Университета Цинхуа, а вице-президент по глобальным операциям Ян Цзянь (Yang Jian) ранее занимал аналогичную должность в глобальной цепочке поставок Huawei. Компания Denglin, обладающая богатым опытом в области разработки и коммерциализации GPU, имеет семь научно-исследовательских центров в различных городах, включая Чэнду и Ханчжоу. Компания входит в число 13 разработчиков GPU в Китае.

Согласно последним данным, в 2021 году мировой рынок GPU составил 33,47 млрд долларов США и, по прогнозам, к 2030 году достигнет 477,37 млрд долларов, что обусловлено растущим спросом со стороны профессиональных пользователей, геймеров и энтузиастов. При этом, ИИ уже вносит существенный вклад в развитие этого рынка.

Появление Denglin Technology на арене графических процессоров имеет значительный потенциал для изменения глобального рынка GPU. Поддержка со стороны китайского правительства, в комбинации с уникальной стратегией совместимости с CUDA, делает Denglin серьезным конкурентом для NVIDIA.

Графический процессор AD106-350 для будущей настольной GeForce RTX 4060 Ti показался на фото

Информатор MEGAsizeGPU опубликовал фотографию графического процессора AD106-350, который будет использоваться в основе настольной видеокарты GeForce RTX 4060 Ti. Визуально чип выглядит меньше, чем AD104-250, который применяется в составе недавно выпущенной видеокарты GeForce RTX 4070.

 Источник изображения: Twitter / MEGAsizeGPU

Источник изображения: Twitter / MEGAsizeGPU

Примечательно, что настольная версия видеокарты GeForce RTX 4060 Ti использует урезанный GPU AD106. Полноценная версия этого GPU применяется в мобильной GeForce RTX 4070 и у него имеется 36 потоковых мультипроцессоров с 4608 ядрами CUDA. Версия GPU для настольной GeForce RTX 4060 Ti получила только 32 потоковых мультипроцессора и 4352 ядра CUDA. В его составе также присутствуют 128 тензорных ядер, 32 ядра RT, 128 текстурных блоков и 48 блоков растеризации. Слухи приписывают настольному AD106-350 базовую частоту в 2310 МГц и Boost-частоту в 2535 МГц.

 Источник изображения: VideoCardz

Источник изображения: VideoCardz

Десктопный вариант GeForce RTX 4060 Ti получит 8 Гбайт памяти. К GPU она будет подключена по 128-битной шине. Новинке также приписывают энергопотребление на уровне 160 Вт. Карта будет использовать только восемь линий PCIe 4.0. Выпуск новинки ожидается в мае.

Meta✴ отстала в гонке ИИ и пока не сможет догнать лидеров, так как тренирует нейросети на CPU

Meta занимается разработкой собственного генеративного ИИ, однако компания приступила к этом слишком поздно из-за зацикленности главы Meta Марка Цукерберга (Mark Zuckerberg) на идее метавселенной. Кроме того у компании не оказалось подходящей для этого аппаратной инфраструктуры — компания сейчас вынуждена использовать для ИИ системы на CPU вместо решений на GPU. В итоге проект будет реализовываться долго.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Гигант соцсетей давно и крупно инвестирует в исследования, связанные с ИИ. Однако он не спешил внедрять дорогостоящие аппаратные и программные системы для работы с ИИ, что теперь ограничивало его способность идти в ногу с масштабными инновациями.

По словам пяти источников издания Reuters, главной проблемой Meta сейчас является отсутствие в её распоряжении ускорителей вычислений на базе GPU, из-за чего пока что приходится использовать имеющиеся в её дата-центрах системы на центральных процессорах. CPU хорошо подходят для задач, связанных с работой соцсетей, но плохо выполняют работу, связанную с ИИ. В свою очередь графические процессоры идеально подходят для тренировки нейросетей и работы ИИ, поскольку они могут выполнять большое количество задач одновременно, сокращая время, необходимое для обработки миллиардов фрагментов данных.

Meta разрабатывала собственные ускорители вычислений, которые подошли бы для ИИ, но их крупномасштабное развёртывание, которое было запланировано на 2022 год, в итоге остановили. После этого в прошлом году руководство Meta разместило заказы на графические процессоры NVIDIA на этот год на миллиарды долларов. Однако этим решения ещё не введены в строй, и таким образом Meta приходится работать на том, что есть.

Получается, что компания на несколько шагов отстала от конкурентов, таких как Google, которая ещё в 2015 году начала развёртывание собственных ускорителей вычислений TPU, или Microsoft, которая вложила миллиарды в OpenAI и предоставила ей свою облачную инфраструктуру на базе GPU от NVIDIA. В итоге, ИИ-чат-бот OpenAI ChatGPT стал самым быстрорастущим потребительским приложением в истории после своего дебюта, вызвав гонку среди технологических гигантов за выпуск продуктов с генеративным ИИ.

При этом Meta не намерена сдаваться и пытается нагнать конкурентов в гонке ИИ. Сообщается, что Meta строит планы по запуску разработки нового, более амбициозного собственного чипа, который, как и GPU, будет способен как обучать модели ИИ, так и поддерживать работу уже готовых нейросетей.

В феврале Цукерберг объявил о создании новой команды высшего уровня по генеративному ИИ, которая, по его словам, «ускорит» работу компании в этой области. В этом месяце главный технический директор Эндрю Босворт (Andrew Bosworth) также заявил, что генеративный ИИ — это область, которой он и Цукерберг уделяют больше всего времени, и предсказал, что Meta выпустит ИИ-продукт в этом году.

Два источника, знакомых с новой командой, сказали, что работа находится на ранних стадиях и сосредоточена на создании базовой модели, основной программы, которая впоследствии может быть доработана и адаптирована для различных продуктов. Другой представитель Meta сказал, что компания занимается созданием продуктов генеративного ИИ в разных командах уже более года. Он подтвердил, что работа ускорилась в течение нескольких месяцев после прихода ChatGPT.

Sparkle неожиданно вернулась на рынок видеокарт, представив свои версии Intel Arc A750 и A380

Некогда весьма известный тайваньский производитель видеокарт Sparkle возвращается на рынок в качестве эксклюзивного партнёра компании Intel. Компания представила первые видеокарты Intel Arc A750 и A380 в фирменном исполнении. Последние видеокарты Sparkle представляла в далёком 2013 году, например, GeForce GTX 770.

 Источник изображений: Sparkle Computer

Источник изображений: Sparkle Computer

Тайваньский производитель видеокарт Sparkle стал эксклюзивным партнёром Intel и обновил страницу своей продукции, разместив впервые за многие годы новые видеокарты. Компания представила три модели на чипах Intel Arc Alchemist. Это карты Sparkle Arc A750 Titan OC Edition, Arc A750 ORC OC Edition и Arc A380 ELF.

Во флагманской версии Sparkle Arc A750 Titan OC используется двухслотовая система охлаждения с тремя вентиляторами, в то время как в версии Arc A750 ORC OC используется двухслотовая конструкция с двумя вентиляторами. Обе видеокарты основаны на графическом чипе ACM-G10 с 3584 потоковыми процессорами и имеют на борту 8 Гбайт видеопамяти стандарта GDDR6 с шиной 256 бит. Видеокарты имеют повышенные частоты: Sparkle Intel Arc A750 Titan OC работает на частоте до 2300 МГц, а Orc OC — на частоте до 2200 МГц. Обе питаются от двух 8-контактных разъёмов.

Intel Arc A380 ELF начального уровня от Sparkle оснащается одним вентилятором и двухслотовым охлаждением в компактном формфакторе. Карта не имеет внешнего разъёма для питания. В её основе лежит графический чип DG2-128 с 1024 потоковых процессоров. Максимальная тактовая частота GPU составляет 2000 МГц. В роли видеобуфера выступают 6 Гбайт памяти формата GDDR6 с шиной 96 бит.

Все карты основаны на системе охлаждения Sparkle TORN, которая оснащена специальными вентиляторами с режимом 0 дБ (отключаются при низкой нагрузке) и технологией Thermal Sync, которая представляет собой светодиодную полосу по бокам карты, меняющую цвет в зависимости от температуры графического процессора.

Это действительно неожиданное возвращение Sparkle в качестве эксклюзивного AIB-партнера Intel. Информации о стоимости и старте продаж на данный момент нет.

Илон Маск закупил тысячи GPU, чтобы наделить Twitter искусственным интеллектом

Хотя владелец социальной сети Twitter Илон Маск (Elon Musk) ещё совсем недавно критиковал системы искусственного интеллекта и даже подписал открытое письмо с призывом ввести временный запрет на соответствующие исследования, оказалось, что бизнесмен сам работает над проектом генеративной ИИ-модели. Как сообщает Business Insider, он приобрёл тысячи GPU и намерен в дальнейшем интегрировать в Twitter собственную ИИ-модель.

 Источник изображения: geralt/unsplash.com

Источник изображения: geralt/unsplash.com

Маск приобрёл Twitter почти полгода назад и уже внёс в социальную сеть массу важнейших изменений, поменяв как структуру компании, так и, отчасти, функциональность сети. Теперь, как сообщает издание со ссылкой на отраслевые источники, он приобрёл для платформы около 10 тыс. GPU-ускорителей, которые обычно применяются для работы над большими ИИ-моделями, требующими значительных вычислительных ресурсов. ИИ-проект Маска, по данным источников, пока находится на ранней стадии, и покупка дополнительных вычислительных мощностей свидетельствует о том, что он всерьёз относится к его реализации.

По словам одного из информаторов Business Insider, ИИ-проект Маска для Twitter включает большую языковую модель (LLM) — у Twitter как раз имеется масса материалов для её тренировки. Например, компания OpenAI, создавшая чат-бота ChatGPT, ранее использовала в том числе данные этой сети для обучения, однако в декабре Маск завил, что положил конец этой практике. Также известно, что ещё к началу марта Маск привлёк в Twitter исследователей из подразделения Alphabet, занимающегося ИИ-разработками, — компании DeepMind. Речь идёт об Игоре Бабушкине (Igor Babuschkin) и Мануэле Кройссе (Manuel Kroiss). Как минимум с февраля Маск привлекал людей из сферы ИИ-разработок к участию в собственном проекте.

По данным The Information, пока неизвестно, для чего именно Twitter будет применять генеративный ИИ. Не исключается, что речь идёт о совершенствовании поиска, который Маск неоднократно критиковал ещё до того, как стал владельцем социальной сети. Также возможно, что речь идёт о развитии рекламных технологий — ИИ вполне способен создавать изображения и слоганы для заданных целевых аудиторий.

Как сообщает Business Insider, NVIDIA, доминирующая на рынке GPU-ускорителей, выпускает варианты для больших ИИ-моделей, стоящие порядка $10 тыс. за экземпляр. Хотя Маск неоднократно заявлял о нестабильной финансовой ситуации социальной сети, вероятно, он потратил десятки миллионов долларов на закупку необходимого оборудования. Ожидается, что ускорители задействуют в одном из двух оставшихся дата-центров компании, вероятнее всего, в том, что расположен в Атланте.

Известно, что Илон Маск является одним из основателей OpenAI и покинул компанию в 2018 году. Не так давно он вместе со многими отраслевыми экспертами подписал открытое письмо, призывающее ввести временный мораторий на разработки в данной сфере ИИ для моделей сложнее GPT-4 — по его мнению, бесконтрольное развитие технологии может привести к катастрофическим последствиям.

Характеристики GeForce RTX 4070 подтвердились: число CUDA-ядер, как у RTX 3070, а шина памяти — уже

Видеокарта GeForce RTX 4070 прошла процесс валидации утилитой GPU-Z. Хотя характеристики ускорителя известны уже давно из утечек, теперь появились доказательства тестирования одной из нереференсных версий будущего ускорителя.

 Источник изображения: VideoCardz

Источник изображения: VideoCardz

Как сообщалось ранее, GeForce RTX 4070 поступит в продажу 13 апреля, однако за день до этого профильные СМИ и техноблогеры опубликуют обзоры с игровыми тестами видеокарты. Весьма вероятно, что данные о валидации видеокарты в GPU-Z были получены в рамках одного из таких тестов.

Имеющаяся информация подтверждает, что GeForce RTX 4070 в исполнении компании Zotac имеет 5888 ядер CUDA, 184 текстурных блоков и 64 блока растеризации. Последних меньше, чем у GeForce RTX 4070 Ti, у которой их 80. Кроме того, у GeForce RTX 4070 меньше объём кеш-памяти L2. Он составляет 36 Мбайт против 48 Мбайт у GeForce RTX 4070 Ti.

Также подтверждены спецификации памяти нового ускорителя. Карта получила 12 Гбайт памяти GDDR6X с поддержкой 192-битной шины. Примечательно, что разрядность шины памяти у неё такая же, как у видеокарты GeForce RTX 3060 прошлого поколения. У формального предшественника в лице GeForce RTX 3070 разрядность шины памяти выше и составляет 256 бит. Сама память GDDR6X у GeForce RTX 4070 работает на частоте 1313 МГц, что переводится в 21 Гбит/с эффективной скорости на контакт. Таким образом, пропускная способность памяти составляет 504,2 Гбайт/с. В рамках процесса валидации карта работала в режиме PCIe x16 3.0, однако она, конечно же, поддерживает PCIe 4.0.

 Источник изображения: GPU-Z

Источник изображения: GPU-Z

Базовая частота графического процессора GeForce RTX 4070 составляет 1920 МГц. Те же данные фигурировали в более ранних утечках. Для чипа заявлена Boost-частота в 2535 МГц, однако здесь речь идёт о заводском разгоне. Эталонная Boost-частота GPU у данной модели ускорителя составляет 2475 МГц.

Сама NVIDIA недавно случайно подтвердила существование GeForce RTX 4070, отметив её на графиках демонстрации технологии Reflex, которая снижает задержку в передаче сигнала между командами пользователя и действиями на экране. Однако официальный анонс видеокарты состоится на следующей неделе.

window-new
Soft
Hard
Тренды 🔥
Новый уровень погружения: MudRunner VR отправит игроков покорять бездорожье в VR 24 мин.
Еврокомиссия вынудила TikTok приостановить программу вознаграждения за просмотр видео в Lite-версии приложения 6 ч.
«Будьте уверены — мы никуда не денемся», — TikTok прокомментировал закон о своём запрете в США 10 ч.
Apple представила малые языковые модели OpenELM, которые работают локально на смартфонах и ноутбуках 10 ч.
NVIDIA приобрела за $700 млн платформу оркестрации ИИ-нагрузок Run:ai 10 ч.
Британские антимонопольщики заинтересовались инвестициями Microsoft и Amazon в ИИ-стартапы 11 ч.
NetEase раскрыла, когда начнётся закрытая «альфа» командного шутера Marvel Rivals в духе Overwatch 11 ч.
Не помешал бы Dark Souls: ведущий разработчик No Rest for the Wicked встал на защиту раннего доступа 12 ч.
Байден подписал закон о запрете TikTok в США, если ByteDance его не продаст 13 ч.
Вышла новая версия системы резервного копирования «Кибер Бэкап Облачный» с расширенной поддержкой Linux-платформ 14 ч.