реклама
Теги → ускоритель
Быстрый переход

Франция готовит обвинения против Nvidia из-за доминирования на рынке GPU и ИИ-ускорителей

Французский антимонопольный регулятор планирует предъявить обвинения Nvidia — компанию подозревают в антиконкурентной практике ведения бизнеса. Это станет первым случаем правоприменительных действий против крупнейшего производителя компьютерных чипов.

 Источник изображения: Mariia Shalabaieva / Unsplash

Источник изображения: Mariia Shalabaieva / Unsplash

По данным Reuters, ссылающегося на информированные источники, французский надзорный комитет готовится выдвинуть обвинения против компании Nvidia, лидера в производстве графических процессоров и ускорителей вычислений для искусственного интеллекта. Этому предшествовали рейды в сентябре прошлого года, направленные на расследование деятельности Nvidia в секторе поставок графических процессоров.

Расследование является частью более широкого изучения конкуренции в сфере облачных вычислений. При этом особое внимание регуляторов привлёк резкий рост спроса на чипы Nvidia после выпуска ChatGPT, что вызвало озабоченность как в Европе, так и в США.

Французский регулятор в своём недавнем отчёте в целом указал на риски злоупотреблений со стороны поставщиков чипов. Особую обеспокоенность вызывает зависимость отрасли от проприетарного программного обеспечения Nvidia CUDA — многие системы используют только этот софт и замены ему нет. Кроме того, регулятор выразил беспокойство по поводу недавних инвестиций Nvidia в поставщиков облачных услуг, ориентированных на искусственный интеллект, таких как CoreWeave.

В случае, если нарушения французских антимонопольных правил, Nvidia может грозить штраф до 10 % от глобального годового оборота. Однако компания может избежать штрафа, пойдя на уступки.

Параллельно с европейскими расследованиями, Министерство юстиции США также ведёт расследование в отношении Nvidia, разделяя контроль над крупными технологическими компаниями с Федеральной торговой комиссией. Nvidia и французский регулятор пока воздерживаются от комментариев по данному вопросу.

Etched представила ИИ-чип для нейросетей-трансформеров — он в разы быстрее и дешевле ускорителей Nvidia

Компания Etched основана два года назад двумя выпускниками Гарварда с целью разработать специализированный ускоритель ИИ. Чипы Etched уникальны тем, что поддерживают лишь один тип моделей ИИ: трансформеры. Эта архитектура, предложенная командой исследователей Google в 2017 году, на сегодняшний день стала доминирующей архитектурой генеративного ИИ.

 Источник изображений: Etched

Источник изображений: Etched

Чип Sohu, разработанный Etched, представляет собой интегральную схему специального назначения (ASIC), изготовленную по 4-нм техпроцессу TSMC. По словам генерального директора компании Гэвина Уберти (Gavin Uberti), новый чип может обеспечить значительно лучшую производительность вывода, чем графические процессоры и другие ИИ-чипы общего назначения, потребляя при этом меньше энергии.

«Sohu на порядок быстрее и дешевле, чем даже следующее поколение графических процессоров Nvidia Blackwell GB200 при работе с преобразователями текста, изображений и видео, — утверждает Уберти. — Один сервер Sohu заменяет 160 графических процессоров H100. Sohu станет более доступным, эффективным и экологически чистым вариантом для бизнес-лидеров, которым нужны специализированные чипы».

Эксперты предполагают, что подобных результатов Etched могла добиться при помощи оптимизированного под трансформеры аппаратно-программного конвейера вывода. Это позволило разработчикам отказаться от аппаратных компонентов, нужных для поддержки других платформ и сократить накладные расходы на программное обеспечение.

Etched выходит на сцену в переломный момент в гонке инфраструктур генеративного ИИ. Помимо высоких стартовых затрат на оборудование, ускорители вычислений потребляют огромное количество электроэнергии и водных ресурсов. По прогнозам, к 2030 году ИИ-бум приведёт к увеличению спроса на электроэнергию в ЦОД на 160 %, что будет способствовать значительному увеличению выбросов парниковых газов. ЦОД к 2027 году потребуют до 6,5 миллионов кубометров пресной воды для охлаждения серверов.

«Наши будущие клиенты не смогут не перейти на Sohu, — уверен Уберти. — Компании готовы сделать ставку на Etched, потому что скорость и стоимость имеют решающее значение для продуктов искусственного интеллекта, которые они пытаются создать». Похоже, что инвесторы полны оптимизма — Etched на сегодняшний день привлекла финансирование в объёме $125,36 млн.

Компания утверждает, что неназванные клиенты уже зарезервировали «десятки миллионов долларов» на приобретение её чипов, а предстоящий запуск Sohu Developer Cloud позволит им предварительно оценить возможности Sohu на интерактивной онлайн площадке.

Пока рано говорить о том, будет ли этого достаточно, чтобы продвинуть Etched и её команду из 35 человек в будущее, которым грезят её учредители. Достаточно вспомнить провалы подобных стартапов, таких как Mythic и Graphcore, и обратить внимание на общее снижение инвестиций в предприятия по производству ИИ-чипов в 2023 году.

«В 2022 году мы сделали ставку на то, что трансформеры захватят мир, — заявил Уберти. — Мы достигли точки в эволюции искусственного интеллекта, когда специализированные чипы, которые могут работать лучше, чем графические процессоры общего назначения, неизбежны — и лица, принимающие технические решения во всем мире, знают это».

В настоящее время у компании нет прямых конкурентов, хотя стартап по производству ИИ-чипов Perceive недавно анонсировал процессор с аппаратным ускорением для трансформеров, а Groq вложил значительные средства в оптимизацию своих ASIC для конкретных моделей.

Nvidia в прошлом году захватила 98 % рынка графических процессоров для ЦОД — поставки достигли 3,76 млн единиц

Недавний бум искусственного интеллекта озолотил Nvidia. В 2023 году компания поставила 3,76 миллиона графических процессоров для ЦОД, что на миллион больше, чем годом ранее, показав рост продаж на 42 %. Выручка Nvidia за 2023 год достигла $60,9 млрд, на 126 % превысив аналогичный показатель 2022 года.

 Источник изображений: Nvidia

Источник изображений: Nvidia

По результатам 2023 года Nvidia захватила 98 % рынка графических процессоров для центров обработки данных и 88 % рынка графических процессоров для настольных ПК. Такие результаты компания продемонстрировала несмотря на нехватку в 2023 году производственных мощностей TSMC, выпускающей чипы для Nvidia, и невзирая на запрет США на экспорт передовых чипов Nvidia в Китай.

Однако Nvidia не может почивать на лаврах: AMD готовит выпуск гораздо более энергоэффективных чипов, чем полупроводниковый хит сезона Nvidia H100, потребляющий до 700 Вт, а Intel продвигает процессор Gaudi 3 AI, который будет стоить $15 000 — вдвое дешевле, чем H100.

В гонку аппаратного обеспечения для ЦОД присоединяются и другие компании. Microsoft представила ускоритель искусственного интеллекта Maia 100, который она планирует использовать в своём анонсированном ЦОД стоимостью $100 млрд. Amazon производит специальные чипы для AWS, а Google планирует использовать собственные серверные процессоры для ЦОД уже в следующем году.

Однако, по утверждению Nvidia, все эти чипы пока менее производительны, чем её графические процессоры применительно к ускорению работы искусственного интеллекта. Nvidia также подчёркивает гибкость архитектуры своих графических процессоров. Таким образом, несмотря на появляющиеся альтернативы, ИИ-ускорители компании в ближайшем будущем сохранят свои лидирующие позиции.

AMD представила мощнейший ИИ-ускоритель MI325X с 288 Гбайт HBM3e и рассказала про MI350X на архитектуре CDNA4

Компания AMD представила на выставке Computex 2024 обновлённые планы по выпуску ускорителей вычислений Instinct, а также анонсировала новый флагманский ИИ-ускоритель Instinct MI325X.

 Источник изображений: AMD

Источник изображений: AMD

Ранее компания выпустила ускорители MI300A и MI300X с памятью HBM3, а также несколько их вариаций для определённых регионов. Новый MI325X основан на той же архитектуре CDNA 3 и использует ту же комбинацию из 5- и 6-нм чипов, но тем не менее представляет собой существенное обновление для семейства Instinct. Дело в том, что в данном ускорителе применена более производительная память HBM3e.

Instinct MI325X предложит 288 Гбайт памяти, что на 96 Гбайт больше, чем у MI300X. Что ещё важнее, использование новой памяти HBM3e обеспечило повышение пропускной способности до 6,0 Тбайт/с — на 700 Гбайт/с больше, чем у MI300X с HBM3. AMD отмечает, что переход на новую память обеспечит MI325X в 1,3 раза более высокую производительность инференса (работа уже обученной нейросети) и генерации токенов по сравнению с Nvidia H200.

Компания AMD также предварительно анонсировала ускоритель Instinct MI350X, который будет построен на чипе с новой архитектурой CDNA 4. Переход на эту архитектуру обещает примерно 35-кратный прирост производительности в работе обученной нейросети по сравнению с актуальной CDNA 3.

Для производства ускорителей вычислений MI350X будет использоваться передовой 3-нм техпроцесс. Instinct MI350X тоже получат до 288 Гбайт памяти HBM3e. Для них также заявляется поддержка типов данных FP4/FP6, что принесёт пользу в работе с алгоритмами машинного обучения. Дополнительные детали об Instinct MI350X компания не сообщила, но отметила, что они будут выпускаться в формфакторе Open Accelerator Module (OAM).

 Источник изображения: AnandTech

Источник изображения: AnandTech

ИИ-ускорители Instinct MI325X начнут продаваться в четвёртом квартале этого года. Выход MI350X ожидается в 2025 году. Кроме того, AMD сообщила, что ускорители вычислений серии MI400 на архитектуре CDNA-Next будут представлены в 2026 году.

Nvidia будет ежегодно выпускать новые архитектуры для ИИ-ускорителей

В преддверии ежегодной выставки Computex компания Nvidia провела презентацию, в рамках которой было сделано несколько важных заявлений. Поимо прочего, глава Nvidia Дженсен Хуанг (Jensen Huang) заявил о намерении ежегодно выпускать новые версии ИИ-ускорителей, а также анонсировал появление графических процессоров на архитектуре Blackwell Ultra в 2025 году и чипов следующего поколения на базе архитектуры Rubin в 2026 году.

 Источник изображения: Annabelle Chih/Bloomberg

Источник изображения: Annabelle Chih/Bloomberg

Nvidia рассматривает развитие генеративных нейросетей как новую промышленную революцию и рассчитывает сыграть важную роль в распространении этих технологий на персональные компьютеры, отметил глава компании в ходе выступления. Nvidia уже стала главным бенефициаром взрывного роста популярности ИИ-технологий, что позволило ей стать самым дорогим производителем полупроводниковой продукции в мире.

Сейчас Nvidia стремится расширить свою клиентскую базу за пределы горстки корпораций, занимающихся облачными вычислениями, которые и обеспечили большую часть продаж ИИ-ускорителей компании. В рамках этой деятельности Хуанг ожидает, что функции на базе нейросетей начнут активно использовать самые разные компании и госучреждения, начиная от судостроителей и заканчивая производителей лекарственных средств. Он выразил уверенность в том, что компании, которые не будут обладать возможностями ИИ, останутся далеко позади конкурентов.

Что касается будущих ИИ-ускорителей, то во время презентации Дженсен Хуанг мало что рассказал о их характеристиках. Он лишь упомянул, что в чипах на архитектуре Rubin будет использоваться память HBM4 с высокой пропускной способностью. Ожидается, что южнокорейская компания SK Hynix начнёт серийное производство чипов памяти HBM4 к 2026 году.

Глава Nvidia лично привёз ИИ-ускоритель DGX H200 первому покупателю — им оказался Сэм Альтман

Гендиректор Nvidia Дженсен Хуанг (Jensen Huang) лично доставил первый ускоритель DGX H200 в офис компании OpenAI в Сан-Франциско, подчеркнув тесную связь между двумя гигантами в отрасли искусственного интеллекта.

 Источник изображения: twitter.com/gdb

Источник изображения: twitter.com/gdb

Это жест был отмечен публикацией в соцести X президента и соучредителя OpenAI Грега Брокмана (Greg Brockman) — он показал фото с мероприятия, на котором также присутствовал гендиректор OpenAI Сэм Альтман (Sam Altman). H200 — это самый новый и самый мощный ИИ-ускоритель Nvidia, знаменующий шаг вперёд в области технологий ИИ. И это поворотный момент для OpenAI, которая получила самое мощное в мире оборудование для своих целей. Ключевым нововведением Nvidia H200 по сравнению с его предшественником H100 стала интеграция памяти HBM3e, что помогло увеличить пропускную способность памяти в 1,4 раза, а её объём вырос до 141 Гбайт.

Для OpenAI приобретение H200 стало важным стратегическим шагом, который расширит возможности компании и поможет в разработке нейросети GPT-5 — выход ускорителя призван стать катализатором отрасли ИИ, способствуя прорывам в различных областях науки. На модель H100 наблюдался значительный спрос, который привёл к дефициту ускорителей, и Nvidia надеется избежать повторения ситуации с новой моделью, сотрудничая с мировыми производителями систем и поставщиками облачных услуг, но пока неизвестно, сработает ли эта стратегия, поскольку фактическая доступность H200 до сих пор остаётся проблемой.

Персональная доставка Nvidia H200 для OpenAI главой компании Дженсеном Хуангом — это не просто символический жест партнёрства, но и, возможно, свидетельство важной роли, которую передовое оборудование играет в развитии технологий ИИ.

Сроки поставок ИИ-ускорителей Nvidia H100 сократились до 2–3 месяцев

Cроки поставок ИИ-ускорителей Nvidia H100 сократились с 3–4 до 2–3 месяцев (8–12 недель), сообщает DigiTimes со ссылкой на заявление директора тайваньского офиса компании Dell Теренса Ляо (Terence Liao). ODM-поставщики серверного оборудования отмечают, что дефицит специализированных ускорителей начал снижаться по сравнению с 2023 годом, когда приобрести Nvidia H100 было практически невозможно.

 Источник изображения: Nvidia

Источник изображения: Nvidia

По словам Ляо, несмотря на сокращение сроков выполнения заказов на поставки ИИ-ускорителей, спрос на это оборудование на рынке по-прежнему чрезвычайно высок. И несмотря на высокую стоимость, объёмы закупок ИИ-серверов значительно выше закупок серверного оборудования общего назначения.

Окно поставок в 2–3 месяца — это самый короткий срок поставки ускорителей Nvidia H100 за всё время. Всего шесть месяцев назад он составлял 11 месяцев. Иными словами, клиентам Nvidia приходилось почти год ждать выполнение своего заказа. С начала 2024 года сроки поставок значительно сократились. Сначала они упали до 3–4 месяцев, а теперь до 2–3 месяцев. При таком темпе дефицит ИИ-ускорителей может быть устранён к концу текущего года или даже раньше.

Частично такая динамика может быть связана с самими покупателями ИИ-ускорителей. Как сообщается, некоторые компании, имеющие лишние и нигде не использующиеся H100, перепродают их для компенсации огромных затрат на их приобретение. Также нынешняя ситуация может являться следствием того, что провайдер облачных вычислительных мощностей AWS упростил аренду ИИ-ускорителей Nvidia H100 через облако, что в свою очередь тоже частично помогает снизить на них спрос.

Единственными клиентами Nvidia, которым по-прежнему приходится сталкиваться с проблемами в поставках ИИ-оборудования, являются крупные ИИ-компании вроде OpenAI, которые используют десятки тысяч подобных ускорителей для быстрого и эффективного обучения своих больших языковых ИИ-моделей.

Акции Nvidia упали на 10 % по сравнению с недавним историческим максимумом

Nvidia вступила на «территорию коррекции»: её акции упали на 10 % по сравнению с последним историческим максимумом в $950 за акцию. Во вторник торги закрылись на отметке $853,54, падение за сессию составило 2 %. Аналитики связывают снижение стоимости акций Nvidia c представленным накануне компанией Intel ИИ-ускорителем Gaudi 3, «сокращением» моделей ИИ и перенаправлением инвестиций крупных клиентов на разработку собственного оборудования для ИИ.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Nvidia за последние годы стала ключевым бенефициаром бума искусственного интеллекта благодаря ажиотажному спросу на её чипы, предназначенные для ресурсоёмких приложений ИИ. Ускорители компании являются ключевым компонентом множества центров обработки данных. Nvidia сообщила о росте в четвёртом квартале разводненной прибыли на акцию (non-GAAP) на 486 % благодаря беспрецедентной популярности генеративных моделей искусственного интеллекта.

Однако последние две недели акции компании находятся под давлением. Падение курса ценных бумаг составило 10 % по сравнению с последним историческим максимумом, которого они достигли 25 марта. Сегодня акции Nvidia торговались с понижением на 0,7 % по состоянию на 9:45 утра по времени восточного побережья США (16:45 мск). Финансовые эксперты советуют инвесторам фиксировать прибыль, которая может составить более чем 200 % за последние 12 месяцев.

 Источник изображения: cnbc.com

Источник изображения: cnbc.com

Одной из возможных причин понижения курса акций Nvidia аналитики называют «сокращение» моделей искусственного интеллекта, включая альтернативы, такие как большая модель Mistral и система LLaMA от Meta. «Сочетание сокращения моделей, более устойчивого роста спроса, зрелых инвестиций в гиперскейлеры и растущего использования крупнейшими клиентами собственных чипов не сулит ничего хорошего для Nvidia в ближайшие годы», — полагают эксперты аналитической компании D.A. Davidson.

Конкуренция в сфере ускорителей вычислений нарастает. Во вторник компания Intel представила свой новый чип для ускорения искусственного интеллекта под названием Gaudi 3. По утверждению компании, новый чип более чем в два раза энергоэффективнее, чем H100 — самый популярный из ныне выпускаемых ускорителей Nvidia, и может запускать модели искусственного интеллекта в 1,5 раза быстрее, чем H100.

Хотя консенсус-оценки говорят о том, что спрос на графические процессоры Nvidia для технологий искусственного интеллекта в этом году будет высоким, в 2025 году ожидается замедление роста, а в 2026 году аналитики предрекают значительный спад для Nvidia, так как крупные покупатели чипов искусственного интеллекта, такие как Amazon и Microsoft, вероятно, направят большую часть своих инвестиций в собственное оборудование.

Intel представила ИИ-ускорители Gaudi 3, которые громят NVIDIA H100 по производительности и энергоэффективности

Сегодня на мероприятии Vision 2024 компания Intel представила множество новых продуктов, среди которых ИИ-ускорители Gaudi 3. По заявлениям создателей, они позволяют обучать нейросети в 1,7 раза быстрее, на 50 % увеличить производительность инференса и работают на 40 % эффективнее конкурирующих H100 от NVIDIA, которые являются самыми популярными на рынке.

 Источник изображений: Intel

Источник изображений: Intel

Gaudi 3 — третье поколение ускорителей ИИ, появившихся благодаря приобретению Intel в 2019 году компании Habana Labs за $2 млрд. Массовое производство Gaudi 3 для OEM-производителей серверов начнётся в третьем квартале 2024 года. Помимо этого, Gaudi 3 будет доступен в облачном сервисе Intel Developer Cloud для разработчиков, что позволит потенциальным клиентам испытать возможности нового чипа.

Gaudi 3 использует ту же архитектуру и основополагающие принципы, что и его предшественник, но при этом он выполнен по более современному 5-нм техпроцессу TSMC, тогда как в Gaudi 2 использованы 7-нм чипы. Ускоритель состоит из двух кристаллов, на которые приходится 64 ядра Tensor Processing Cores (TPC) пятого поколения и восемь матричных математических движков (MME), а также 96 Мбайт памяти SRAM с пропускной способностью 12,8 Тбайт/с. Вокруг установлено 128 Гбайт HBM2e с пропускной способностью 3,7 Тбайт/с. Также Gaudi 3 укомплектован 24 контроллерами Ethernet RDMA с пропускной способностью по 200 Гбит/с, которые обеспечивают связь как между ускорителями в одном сервере, так и между разными серверами в одной системе.

Gaudi 3 будет выпускаться в двух формфакторах. Первый — OAM (модуль ускорителя OCP) HL-325L, использующийся в высокопроизводительных системах на основе ускорителей вычислений. Этот ускоритель получит TDP 900 Вт и производительность 1835 терафлопс в FP8. Модули OAM устанавливаются по 8 штук на UBB-узел HLB-325, которые можно объединять в системы до 1024 узлов. По сравнению с прошлым поколением, Gaudi 3 обеспечивает вдвое большую производительность в FP8 и вчетверо — в BF16, вдвое большую пропускную способность сети и 1,5 раза — памяти.

OAM устанавливаются в универсальную плату, поддерживающую до восьми модулей. Модули и платы уже отгружены партнёрам, но массовые поставки начнутся лишь к концу года. Восемь OAM на плате HLB-325 дают производительность 14,6 петафлопс в FP8, остальные характеристики масштабируются линейно.

Второй формфактор — двухслотовая карта расширения PCIe с TDP 600 Вт. По заявлениям Intel, несмотря на заметно меньший TDP этой версии, производительность в FP8 осталась той же — 1835 терафлопс. А вот масштабируемость хуже — модули рассчитаны на работу группами по четыре. Gaudi 3 в данном формфакторе появятся в 4 квартале 2024 года.

Dell, HPE, Lenovo и Supermicro уже поставили клиентам образцы систем с Gaudi 3 с воздушным охлаждением, а в ближайшее время должны появится модели с жидкостным охлаждением. Массовое производство начнётся лишь в 3 и 4 кварталах 2024 года соответственно.

Intel также поделилась собственными тестами производительности, сравнив Gaudi 3 с системами на основе H100. По словам Intel, Gaudi 3 справляется с обучением нейросетей в 1,5–1,7 раза быстрее. Сравнение велось на моделях LLAMA2-7B и LLAMA2-13B на системах с 8 и 16 ускорителями, а также на модели GPT 3-175B на системе с 8192 ускорителями. Intel не стала сравнивать системы на Gaudi 3 с системами на H200 от NVIDIA, у которого на 76 % больше памяти, а её пропускная способность выше на 43 %.

Intel сравнила Gaudi 3 с H200 в инференсе, но уже не кластерами, а отдельным модулем. В пяти тестах с LLAMA2-7B/70B производительность Gaudi 3 оказалась на 10–20 % ниже, в двух равна и в одном чуть выше H200. При этом Intel заявляет о 2,6-кратном преимуществе в энергопотреблении по сравнению с H100.

NVIDIA представила самый мощный чип в мире — Blackwell B200, который откроет путь к гигантским нейросетям

Компания Nvidia в рамках конференции GTC 2024 представила ИИ-ускорители следующего поколения на графических процессорах с архитектурой Blackwell. По словам производителя, грядущие ИИ-ускорители позволят создавать ещё более крупные нейросети, в том числе работать с большими языковыми моделями (LLM) с триллионами параметров, и при этом будут до 25 раз энергоэффективнее и экономичнее в сравнении с Hopper.

 Источник изображений: Nvidia

Источник изображений: Nvidia

Архитектура GPU Blackwell получила название в честь американского математика Дэвида Блэквелла (David Harold Blackwell) и включает в себя целый ряд инновационных технологий для ускорения вычислений, которые помогут совершить прорыв в обработке данных, инженерном моделировании, автоматизации проектирования электроники, компьютерном проектировании лекарств, квантовых вычислениях и генеративном ИИ. Причём на последнем в Nvidia делают особый акцент: «Генеративный ИИ — это определяющая технология нашего времени. Графические процессоры Blackwell — это двигатель для новой промышленной революции», — подчеркнул глава Nvidia Дженсен Хуанг (Jensen Huang) в рамках презентации.

Графический процессор Nvidia B200 производитель без лишней скромности называет самым мощным чипом в мире. В вычислениях FP4 и FP8 новый GPU обеспечивает производительность до 20 и 10 Пфлопс соответственно. Новый GPU состоит из двух кристаллов, которые произведены по специальной версии 4-нм техпроцесса TSMC 4NP и объединены 2,5D-упаковкой CoWoS-L. Это первый GPU компании Nvidia с чиплетной компоновкой. Чипы соединены шиной NV-HBI с пропускной способностью 10 Тбайт/с и работают как единый GPU. Всего новинка насчитывает 208 млрд транзисторов.

 Один из кристаллов GPU Blackwell

Один из кристаллов Blackwell — в GPU таких кристаллов два

По сторонам от кристаллов GPU расположились восемь стеков памяти HBM3E общим объёмом 192 Гбайт. Её пропускная способность достигает 8 Тбайт/с. А для объединения нескольких ускорителей Blackwell в одной системе новый GPU получил поддержку интерфейса NVLink пятого поколения, которая обеспечивает пропускную способность до 1,8 Тбайт/с в обоих направлениях. С помощью данного интерфейса (коммутатор NVSwitch 7.2T) в одну связку можно объединить до 576 GPU.

Одними из главных источников более высокой производительности B200 стали новые тензорные ядра и второе поколение механизма Transformer Engine. Последний научился более тонко подбирать необходимую точность вычислений для тех или иных задач, что влияет и на скорость обучения и работы нейросетей, и на максимальный объём поддерживаемых LLM. Теперь Nvidia предлагает тренировку ИИ в формате FP8, а для запуска обученных нейросетей хватит и FP4. Но отметим, что Blackwell поддерживает работу с самыми разными форматами, включая FP4, FP6, FP8, INT8, BF16, FP16, TF32 и FP64. И во всех случаях кроме последнего есть поддержка разреженных вычислений.

Флагманским ускорителем на новой архитектуре станет Nvidia Grace Blackwell Superchip, в котором сочетается пара графических процессоров B200 и центральный Arm-процессор Nvidia Grace с 72 ядрами Neoverse V2. Данный ускоритель шириной в половину серверной стойки обладает TDP до 2,7 кВт. Производительность в операциях FP4 достигает 40 Пфлопс, тогда как в операциях FP8/FP6/INT8 новый GB200 способен обеспечить 10 Пфлопс.

Как отмечает сама Nvidia, новинка обеспечивает 30-кратный прирост производительности по сравнению с Nvidia H100 для рабочих нагрузок, связанных с большими языковыми моделями, а она до 25 раз более экономична и энергетически эффективна.

Ещё Nvidia представила систему GB200 NVL72 — фактически это серверная стойка, которая объединяет в себе 36 Grace Blackwell Superchip и пару коммутаторов NVSwitch 7.2T. Таким образом данная система включает в себя 72 графических процессора B200 Blackwell и 36 центральных процессоров Grace, соединенных NVLink пятого поколения. На систему приходится 13,5 Тбайт памяти HBM3E с общей пропускной способностью до 576 Тбайт/с, а общий объём оперативной памяти достигает 30 Тбайт.

Платформа GB200 NVL72 работает как единый GPU с ИИ-производительностью 1,4 эксафлопс (FP4) и 720 Пфлопс (FP8). Эта система станет строительным блоком для новейшего суперкомпьютера Nvidia DGX SuperPOD.

На переднем плане HGX-система с восемью Blackwell. На заднем — суперчип GB200

Наконец, Nvidia представила серверные системы HGX B100, HGX B200 и DGX B200. Все они предлагают по восемь ускорителей Blackwell, связанных между собой NVLink 5. Системы HGX B100 и HGX B200 не имеют собственного CPU, а между собой различаются только энергопотреблением и как следствие мощностью. HGX B100 ограничен TDP в 700 Вт и обеспечивает производительность до 112 и 56 Пфлопс в операциях FP4 и FP8/FP6/INT8 соответственно. В свою очередь, HGX B200 имеет TDP в 1000 Вт и предлагает до 144 и 72 Пфлопс в операциях FP4 и FP8/FP6/INT8 соответственно.

Наконец, DGX B200 копирует HGX B200 в плане производительности, но является полностью готовой системой с парой центральных процессоров Intel Xeon Emerald Rapids. По словам Nvidia, DGX B200 до 15 раз быстрее в задачах запуска уже обученных «триллионных» моделей по сравнению с предшественником.

Для создания наиболее масштабных ИИ-систем, включающих от 10 тыс. до 100 тыс. ускорителей GB200 в рамках одного дата-центра, компания Nvidia предлагает объединять их в кластеры с помощью сетевых интерфейсов Nvidia Quantum-X800 InfiniBand и Spectrum-X800 Ethernet. Они также были анонсированы сегодня и обеспечат передовые сетевые возможности со скоростью до 800 Гбит/с.

Свои системы на базе Nvidia B200 в скором времени представят многие производители, включая Aivres, ASRock Rack, ASUS, Eviden, Foxconn, GIGABYTE, Inventec, Pegatron, QCT, Wistron, Wiwynn и ZT Systems. Также Nvidia GB200 в составе платформы Nvidia DGX Cloud, а позже в этом году решения на этом суперчипе станут доступны у крупнейших облачных провайдеров, включая AWS, Google Cloud и Oracle Cloud.

Nvidia покажет ИИ-ускоритель нового поколения уже на следующей неделе в рамках GTC 2024

Генеральный директор и соучредитель Nvidia Дженсен Хуанг (Jensen Huang) в понедельник 18 марта выйдет на сцену хоккейной арены Кремниевой долины, чтобы представить новые решения, включая ИИ-чипы нового поколения. Поводом для этого станет ежегодная конференция разработчиков GTC 2024, которая станет первой очной встречей такого масштаба после пандемии. Nvidia ожидает, что это мероприятие посетят 16 000 человек, что примерно вдвое превысит число посетителей в 2019-м.

 Источник изображения: Getty Images

Источник изображения: Getty Images

Рыночная капитализация Nvidia превысила $2 трлн в конце февраля, и теперь ей не хватает «всего» $400 млрд, чтобы превзойти Apple, которая занимает второе место по капитализации после лидера фондового рынка Microsoft. Аналитики ожидают, что выручка Nvidia в этом году вырастет на 81 % до $110 млрд, поскольку технологические компании на волне бума ИИ десятками тысяч скупают её новейшие ускорители ИИ для разработки и обучения чат-ботов, генераторов изображений и других нейросетей.

Новое поколение высокопроизводительных ИИ-чипов от Nvidia, которое предположительно получит обозначение B100, должно стать основой для дальнейшего укрепления рыночных позиций компании. В рамках предстоящей GTC компания Nvidia вряд ли раскроет все характеристики и назовёт точную цену нового ускорителя, которая не в последнюю очередь зависит от размера партии и сроков поставки. Очевидно, B100 будет намного быстрее своего предшественника и, вероятно, будет стоить дороже, хотя цена актуальных H100 может превышать $20 000. Поставки нового чипа ожидаются позднее в этом году.

 Источник изображений: Nvidia

Источник изображений: Nvidia

Спрос на текущие ускорители Nvidia превысил предложение: разработчики программного обеспечения месяцами ждут возможности использовать кластеры ускорителей ИИ у облачных провайдеров. Реагируя на высокий спрос, акции Nvidia выросли на 83 % в этом году после более чем утроения их стоимости в прошлом. И даже после этого стремительного роста акции Nvidia торгуются с прибылью, в 34 раза превышающей ожидаемую. Аналитики значительно повысили оценки будущих доходов компании, но, если их прогнозы окажутся слишком оптимистичными, акции Nvidia рискуют ощутимо просесть в цене.

«Самое большое беспокойство вызывает то, что цифры стали настолько большими и настолько быстрыми, что вы просто беспокоитесь, что они не продлятся долго, — считает аналитик Bernstein Стейси Расгон (Stacy Rasgon). — Чем больше у них появляется новых продуктов с более высокими характеристиками и более высокими ценами, тем больше у них возможностей для взлёта».

Nvidia также, вероятно, представит на GTC 2024 множество обновлений своего программного обеспечения CUDA, которое предоставляет разработчикам инструменты для запуска своих программ на ускорителях компании, ещё сильнее привязывая их к чипам Nvidia. Глубокое погружение в использование CUDA усложняет для разработчика переход на «железо» конкурентов, таких как AMD, Microsoft и Alphabet.

В прошлом году Nvidia начала предлагать процессоры и программное обеспечение в виде облачных сервисов и продолжает развивать успех. Аналитики полагают, что «возможно, поставщики облачных услуг и программного обеспечения нервничают из-за того, что Nvidia действует на их игровой площадке».

Nvidia располагает ощутимым технологическим преимуществом над китайскими конкурентами. США отрезали Китаю доступ к самым передовым чипам Nvidia, поэтому самыми передовыми китайскими ускорителями ИИ являются чипы Huawei, которые по производительности соответствуют процессорам Nvidia A100, выпущенным в далёком 2020 году. Ни один китайский ускоритель ИИ даже близко не может сравниться с флагманским чипом Nvidia H100, выпущенным в 2022 году, а предстоящий B100 ещё более увеличит отрыв. Эксперты полагают, что «со временем этот разрыв станет экспоненциально большим».

Cerebras представила гигантский процессор WSE-3 c 900 тысячами ядер

Американский стартап Cerebras Systems представил гигантский процессор WSE-3 для машинного обучения и других ресурсоёмких задач, для которого заявляется двукратный прирост производительности на ватт потребляемой энергии по сравнению с предшественником.

 Cerebras WSE-3. Источник изображений: Cerebras

Cerebras WSE-3. Источник изображений: Cerebras

Площадь нового процессора составляет 46 225 мм2. Он выпускается с использованием 5-нм техпроцесса компании TSMC, содержит 4 трлн транзисторов, 900 000 ядер и объединён с 44 Гбайт набортной памяти SRAM. Его производительность в операциях FP16 заявлена на уровне 125 Пфлопс.

Один WSE-3 составляет основу для новой вычислительной платформы Cerebras CS-3, которая, по утверждению компании, обеспечивает вдвое более высокую производительность, чем предыдущая платформа CS-2 при том же энергопотреблении в 23 кВт. По сравнению с ускорителем Nvidia H100 платформа Cerebras CS-3 на базе WSE-3 физически в 57 раз больше и примерно в 62 раза производительнее в операциях FP16. Но учитывая размеры и энергопотребление Cerebras CS-3, справедливее будет сравнить её с платформой Nvidia DGX с 16 ускорителями H100. Правда, даже в этом случае CS-3 примерно в 4 раза быстрее конкурента, если речь идёт именно об операциях FP16.

 Cerebras CS-3. Источник изобажений: Cerebras

Cerebras CS-3

Одним из ключевых преимуществ систем Cerebras является их пропускная способность. Благодаря наличию 44 Гбайт набортной памяти SRAM в каждом WSE-3, пропускная способность новейшей системы Cerebras CS-3 составляет 21 Пбайт/с. Для сравнения, Nvidia H100 с памятью HBM3 обладает пропускной способностью в 3,9 Тбайт/с. Однако это не означает, что системы Cerebras быстрее во всех сценариях использования, чем конкурирующие решения. Их производительность зависит от коэффициента «разрежённости» операций. Та же Nvidia добилась от своих решений удвоения количества операций с плавающей запятой, используя «разреженность». В свою очередь Cerebras утверждает, что добилась улучшения примерно до 8 раз. Это значит, что новая система Cerebras CS-3 будет немного медленнее при более плотных операциях FP16, чем пара серверов Nvidia DGX H100 при одинаковом энергопотреблении и площади установки, и обеспечит производительность около 15 Пфлопс против 15,8 Пфлопс у Nvidia (16 ускорителей H100 выдают 986 Тфлопс производительности).

 Одна из установок Condor Galaxy AI

Одна из установок Condor Galaxy AI

Cerebras уже работает над внедрением CS-3 в состав своего суперкластера Condor Galaxy AI, предназначенного для решения ресурсоёмких задач с применением ИИ. Этот проект был инициирован в прошлом году при поддержке компании G42. В его рамках планируется создать девять суперкомпьютеров в разных частях мира. Две первые системы, CG-1 и CG-2, были собраны в прошлом году. В каждой из них сдержится по 64 платформы Cerebras CS-2 с совокупной ИИ-производительностью 4 экзафлопса.

В эту среду Cerebras сообщила, что построит систему CG-3 в Далласе, штат Техас. В ней будут использоваться несколько CS-3 с общей ИИ-производительностью 8 экзафлопсов. Если предположить, что на остальных шести площадках также будут использоваться по 64 системы CS-3, то общая производительность суперкластера Condor Galaxy AI составит 64 экзафлопса. В Cerebras отмечают, что платформа CS-3 может масштабироваться до 2048 ускорителей с общей производительностью до 256 экзафлопсов. По оценкам экспертов, такой суперкомпьютер сможет обучить модель Llama 70B компании Meta всего за сутки.

Помимо анонса новых ИИ-ускорителей Cerebras также сообщила о сотрудничестве с компанией Qualcomm в вопросе создания оптимизированных моделей для ИИ-ускорителей Qualcomm с Arm-архитектурой. На потенциальное сотрудничество обе компании намекали с ноября прошлого года. Тогда же Qualcomm представила свой собственный ИИ-ускорители Cloud AI100 Ultra формата PCIe. Он содержит 64 ИИ-ядра, 128 Гбайт памяти LPDDR4X с пропускной способностью 548 Гбайт/с, обеспечивает производительность в операциях INT8 на уровне 870 TOPS и обладает TDP 150 Вт.

 Источник изображения: Qualcomm

Источник изображения: Qualcomm

В Cerebras отмечают, что вместе с Qualcomm они будут работать над оптимизацией моделей для Cloud AI100 Ultra, в которых будут использоваться преимущества таких методов, как разреженность, спекулятивное декодирование, MX6 и поиск сетевой архитектуры.

«Как мы уже показали, разрежённость при правильной реализации способна значительно повысить производительность ускорителей. Спекулятивное декодирование предназначено для повышения эффективности модели при развёртывании за счёт использования небольшой и облегченной модели для генерации первоначального ответа, а затем использования более крупной модели для проверки точности этого ответа», — отметил гендиректор Cerebras Эндрю Фельдман (Andrew Feldman).

Обе компании также рассматривают возможность использования метода MX6, представляющего собой форму сжатия размера модели путём снижения её точности. В свою очередь, поиск сетевой архитектуры представляет собой процесс автоматизации проектирования нейронных сетей для конкретных задач с целью повышения их производительности. По словам Cerebras, сочетание этих методов способствует десятикратному повышению производительности на доллар.

Датчик для Большого адронного коллайдера поможет удалять опухоли головного мозга

От большой науки редко ждут немедленного практического результата, но исключения бывают. Свежим примером стало использование датчика для регистрации столкновений частиц на БАК для картирования тканей головного мозга при работе с опухолями. Датчик помогает определять контуры опухоли и даёт возможность уничтожить её с минимальным вредом для пациента.

 Источник изображения: CERN

Источник изображения: CERN

В обычных условиях для облучения опухоли электронным пучком карта тканей создаётся с помощью предоперационной компьютерной томографии. К моменту операции ткани могут сдвинуться, и работа с опухолью может быть неточной. Разрушение электронным пучком здоровых тканей мозга ни к чему хорошему не приведёт. Пациент может потерять фрагменты памяти, элементы сенсорики и моторики.

Чтобы чётко определять края злокачественной ткани, чешская компания ADVACAM использовала созданный для экспериментов с элементарными частицами датчик Timepix компании Medipix Collaborations. Датчик фиксирует вторичное излучение в виде рассеивания электронного пучка на живых тканях и опухоли. Если картина меняется — в поле действия пучка попадает здоровая ткань — работа пучком по опухоли прекращается. Сейчас это просто остановка процедуры для проведения новой томографии.

В будущем разработчики обещают создать установку для автоматического управления проектором в ходе операции, что упростит и ускорит процедуру удаления опухоли, а также снизит опасность повреждения здоровых тканей. Созданный для задач CERN прибор принесёт фактически немедленную пользу, на которую при его разработке даже не рассчитывали.

Учёные приблизились к созданию ускорителя электронов размером с обувную коробку

Исследователи из Стэнфордского университета разработали и создали крошечный ускоритель электронов, который может быть собран в корпусе размером с коробку из-под обуви. Когда-нибудь они заменят мегадорогие ускорители для передовых исследований в физике и внесут кардинальные перемены в медицинское обслуживание, промышленность и даже повседневную жизнь.

 Источник изображения:  Moore Foundation / Payton Broaddus

Источник изображения: Moore Foundation / Payton Broaddus

Исследователи показали, что кремниевый диэлектрический лазерный ускоритель (DLA) способен как ускорять, так и направлять электроны, создавая сфокусированный пучок электронов высокой энергии. «Если бы электроны были микроскопическими автомобилями, мы бы как будто впервые сели за руль и нажали на газ», — пояснила 23-летняя Пейтон Броддус (Payton Broaddus), кандидат наук в области электротехники и ведущий автор статьи, опубликованной 23 февраля с подробным описанием прорыва в журнале Physical Review Letters.

Сегодня ускорители частиц не отличаются компактностью, начинаясь от размеров с приличный рабочий стол и заканчивая Большим адронным коллайдером с кольцом длиной почти 27 км. Это дорогостоящие научные приборы, использовать которые полноценно могут в основном академические учёные. Создание компактных и относительно недорогих или вовсе недорогих ускорителей позволит применять их в медицине для детальной визуализации внутренних тканей органов человека и для лечения опухолей. Ускорители помогут с анализом материалов, веществ и с неразрушающим контролем качества. Наконец, появятся приборы, по-настоящему показывающие нитратный и даже молекулярный состав купленных в магазине фруктов и овощей.

Около 10 лет назад исследователи из Стэнфорда начали экспериментировать с наноразмерными структурами, изготовленными из кремния и стекла, которые без деформаций выдерживали большие перепады температур, чем металлические части ускорителей. В 2013 году был создан прототип крошечного ускорителя из стекла на основе импульсных инфракрасных лазеров, который успешно разгонял электроны. Под эту разработку Фонд Гордона и Бетти Мур в рамках международного сотрудничества Accelerator on Achip (ACHIP) выделили средства на создание мегаэлектронвольтового ускорителя размером с обувную коробку.

 Изображение трека для создания сфокусированного пучка электронов. Источник изображения: Physical Review Letters

Изображение трека для создания сфокусированного пучка электронов. Источник изображения: Physical Review Letters

В результате исследований была разработана микроструктура, которая оказалась способна фокусировать пучок электронов в двух плоскостях, ускоряя и направляя их вдоль горизонтальной плоскости. Электроны вводятся с одной стороны субмиллиметрового трека, а с обоих его концов происходит импульсное освещение лазерами. Предложенное решение позволило придать электронам дополнительно 25 % энергии — ускорить их до 23,7 кэВ. Это ускорение сопоставимо с возможностями классических настольных ускорителей, но реализовано в «коробке из-под обуви».

Дальнейшее совершенствование схемы позволит поднять энергию ускорения до запланированного уровня в 1 МэВ. Каскад таких ускорителей или использование на начальном этапе других схем, например, этой, созданной коллегами из Университета Фридриха-Александра в Эрлангене и Нюрнберге (FAU), позволит изготавливать компактные усилители с разгоном электронов до субсветовых скоростей. Но это работа для далёкого будущего. Сейчас в этом направлении сделаны хоть и успешные, но только первые шаги.

Купить ИИ-ускоритель NVIDIA H100 стало проще — очереди уменьшились, появился вторичный рынок

Сроки поставки графических процессоров NVIDIA H100, применяемых в приложениях ИИ и высокопроизводительных вычислениях, заметно сократились — с 8–11 до 3–4 месяцев. Аналитики полагают, что это связано с расширением возможностей аренды ресурсов у крупных компаний, таких как Amazon Web Services, Google Cloud и Microsoft Azure. В результате некоторые компании, ранее закупившие большое количество процессоров H100, теперь пытаются их продать.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

The Information сообщает, что некоторые фирмы перепродают свои графические процессоры H100 или сокращают заказы из-за снижения дефицита и высокой стоимости содержания неиспользуемых запасов. Это знаменует собой значительный сдвиг по сравнению с прошлым годом, когда приобретение графических процессоров NVIDIA Hopper было серьёзной проблемой. Несмотря на повышение доступности чипов и значительное сокращение сроков выполнения заказов, спрос на чипы ИИ всё ещё продолжает превышать предложение, особенно среди компаний, обучающих большие языковые модели (LLM).

Ослабление дефицита ускорителей ИИ отчасти связано с тем, что поставщики облачных услуг упростили аренду графических процессоров NVIDIA H100. Например, AWS представила новый сервис, позволяющий клиентам планировать аренду графических процессоров на более короткие периоды, что привело к сокращению спроса и времени ожидания. Увеличение доступности ИИ-процессоров NVIDIA также привело к изменению поведения покупателей. Компании при покупке или аренде становятся более требовательными к ценам, ищут меньшие по размеру кластеры графических процессоров и больше внимания уделяют экономической жизнеспособности своего бизнеса.

В результате рост сектора искусственного интеллекта значительно меньше, чем в прошлом году, сдерживается ограничениями из-за дефицита чипов. Появляются альтернативы устройствам NVIDIA, например, процессоры AMD или AWS, которые наряду с повысившейся производительностью получили улучшенную поддержку со стороны программного обеспечения. В совокупности с взвешенным подходом к инвестициям в ИИ, это может привести к более сбалансированной ситуации на рынке.

Тем не менее, доступ к большим кластерам графических процессоров, необходимым для обучения LLM, до сих пор остаётся проблематичным. Цены на H100 и другие процессоры NVIDIA не снижаются, компания продолжает получать высокую прибыль и невероятными темпами наращивать свою рыночную стоимость. NVIDIA прогнозирует высокий спрос на ИИ-ускорители следующего поколения Blackwell. В поисках альтернатив Сэм Альтман (Sam Altman) из OpenAI пытается привлечь масштабное финансирование для создания дополнительных заводов по производству процессоров ИИ.

window-new
Soft
Hard
Тренды 🔥
Первая за 11 лет новая книга Анджея Сапковского из цикла «Ведьмак» получила название «Перекрёсток воронов» — первые подробности 5 мин.
В Японии порекомендовали добавить в завещания свои логины и пароли 16 мин.
Обновления Windows 11 больше не будут перезагружать ПК, но обычных пользователей это не касается 36 мин.
VK похвасталась успехами «VK Видео» на фоне замедления YouTube 3 ч.
GTA наоборот: полицейская песочница The Precinct с «дозой нуара 80-х» не выйдет в 2024 году 4 ч.
D-Link предложила устранить уязвимость маршрутизаторов покупкой новых 5 ч.
Valve ужесточила правила продажи сезонных абонементов в Steam и начнёт следить за выполнением обещаний разработчиков 6 ч.
Австралия представила беспрецедентный законопроект о полном запрете соцсетей для детей до 16 лет 6 ч.
Биткоин приближается к $100 000 — курс первой криптовалюты установил новый рекорд 7 ч.
В открытых лобби Warhammer 40,000: Space Marine 2 запретят играть с модами, но есть и хорошие новости 7 ч.
Meta планирует построить за $5 млрд кампус ЦОД в Луизиане 29 мин.
HPE готова ответить на любые вопросы Минюста США по расследованию покупки Juniper за $14 млрд 49 мин.
Thermaltake представила компактный, но вместительный корпус The Tower 250 для игровых систем на Mini-ITX 3 ч.
Флагманы Oppo Find X8 и X8 Pro на Dimensity 9400 стали доступны не только в Китае — старший оценили в €1149 3 ч.
«ВКонтакте» выросла до 88,1 млн пользователей — выручка VK взлетела на 21,4 % на рекламе 4 ч.
В Китае выпустили жидкостный кулер с 6,8-дюймовым изогнутым OLED-экраном за $137 4 ч.
«Квантовые жёсткие диски» стали ближе к реальности благодаря разработке австралийских учёных 4 ч.
Электромобили станут более автономными и долговечными: Honda через несколько лет стартует массовый выпуск твердотельных батарей 4 ч.
Большой планшет Oppo Pad 3 Pro вышел на глобальный рынок за €600 4 ч.
Каждый третий смартфон теперь попадает в Россию нелегально 5 ч.