Сегодня 29 марта 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → hpc

Мощь 52 ускорителей NVIDIA H200 за 1/100 стоимости — Tachyum начнёт массово выпускать 192-ядерные чипы Prodigy в этом году

Компания Tachyum сообщила, что в этом году начнёт массовое производство универсального процессора Prodigy, сочетающего вычислительные и графические ядра, а также нейродвижок TPU. Производитель обещает, что новинка обеспечит выдающийся уровень производительности и сможет потягаться с самыми мощными ускорителями вычислений NVIDIA.

 Источник изображения: Tachyum

Источник изображения: Tachyum

Разработчик заявляет, что её 192-ядерный чип, выполненный на основе 5-нм технологического процесса, обеспечивает в 4,5 раза более высокую производительность, чем любой другой процессор, предназначенный для вычислительных нагрузок в облачной среде. Кроме того, он до трёх раз быстрее любого GPU, предназначенного для высокопроизводительных вычислений и до шести раз энергетически эффективнее специализированных GPU для ИИ-задач.

Tachyum анонсировала чип Prodigy Universal Processor в 2022 году и пообещала с его помощью трансформировать узкоспециализированные ЦОДы в универсальные компьютерные центры, способные обеспечить необходимую вычислительную мощность и эффективность для различных ИИ-нагрузок. В декабре 2023 года компания выпустила видео, показывающее способность Prodigy эмулировать работу в x86-совместимых приложениях. Однако есть одно существенное «но»: несмотря на внушительные цифры производительности и заявления Tachyum, процессоры Prodigy существуют только на бумаге и в виде эмулируемой с помощью FPGA платформы с небольшим количеством ядер.

«Успехи, которых нам удалось достичь при корректировке нашего плана выпуска продуктов, привели нас к 2024 году, полному ожиданий, поскольку мы движемся к началу массового производства Prodigy и реализации многомиллиардного канала продаж. Мы с нетерпением ждём возможности выполнить наше обещание и обязательство по преобразованию обычных центров обработки данных в универсальные вычислительные центры в ближайшем будущем», — заявил генеральный директор и основатель Tachyum Радослав Данилак (Radoslav Danilak).

Поскольку в составе Prodigy Universal Processor используются функциональные компоненты, предназначенные для разных типов нагрузок, он может динамически переключаться между вычислительными кластерами, исключая необходимость в использовании разнонаправленного и дорогостоящего аппаратного обеспечения для отдельных типов ИИ-нагрузок в составе вычислительной системы. По крайней мере, так говорится в свежем пресс-релизе компании.

Там же заявляется, что всего один процессор Prodigy Universal Processor стоимостью $23 000 способен сравниться по производительности в задачах обучения ИИ с системой из 52 специализированных ускорителей NVIDIA H200, являющихся одними из лучших на рынке. Компания заявила, что стоимость такого количества графических процессоров в составе семи серверов Supermicro GPU составит 2 349 028 долларов или в 100 раз больше, чем одна система с Prodigy Universal Processor и 2 Тбайт оперативной памяти DDR5.

Tachyum также заявила, что уже планирует разработку более передового универсального процессора Prodigy 2 на базе 3-нм техпроцесса, который получит поддержку интерфейсов PCIe 6.0 и CXL, и будет оснащаться набортной высокопроизводительной памятью HBM3. Его планируется выпустить где-то в 2026 году.

Новая статья: AMD Instinct MI300: новый взгляд на ускорители

Данные берутся из публикации AMD Instinct MI300: новый взгляд на ускорители

Санкции США обрушат китайский спрос на ИИ-оборудование в полтора раза, но производители найдут лазейки

Очередной виток противостояния США и Китая обозначился 17 октября, когда американский Минторг обновил правила экспортного контроля — в них включили оборудование для производства полупроводников, чипы для высокопроизводительных вычислений, в основном для ИИ-систем; а список организаций под санкциями пополнили две новые компании. В результате китайский спрос на HPC-компоненты снизится до 3–4 % от мирового, уверены аналитики TrendForce.

 Источник изображения: nvidia.com

Источник изображения: nvidia.com

Существенным изменением оказалось формальное включение в список контролируемых товаров литографической системы ASML Twinscan NXT:1980Di, которая ранее находилась в серой зоне. ASML получила разрешение завершить намеченные поставки, поэтому последствия этой меры скажутся несколько позже. А вот сегмент HPC ожидает встряска, поскольку новый запрет коснулся ускорителей серий NVIDIA A800, H800 и L40S. Из-за этого китайские технологические гиганты ByteDance, Baidu, Alibaba и Tencent умерят свои аппетиты в отношении высокопроизводительных серверов с ускорителями NVIDIA — ранее Китай обеспечивал 5–6 % мирового спроса в этом сегменте, теперь же он снизится до 3–4 %. Китайские поставщики облачных услуг, как ожидается, в краткосрочной перспективе начнут запасаться импортными ИИ-ускорителями, а в среднесрочной и долгосрочной — ускорят разработку собственных.

Ещё одной тенденцией обещает стать новая стратегия производителей ИИ-чипов в лице NVIDIA и AMD — они расширят ассортимент решений и позволят клиентам адаптироваться к ограничениям, которые диктует геополитика. К примеру, это будет продукция с более скромными показателями производительности или более крупными кристаллами, что поможет соблюсти ограничения, не жертвуя охватом рынка.

Китайские техногиганты, кроме того, помогут местным академическим и исследовательским институтам рассмотреть возможность аренды ресурсов для обучения ИИ за пределами Китая, а его настройка и непосредственная работа будут организованы уже внутри страны. В этом проекте может принять участие и NVIDIA, которая начнёт активнее продвигать услуги по подписке на ИИ-серверы DGX Cloud. Это позволит привлечь клиентов не только из Китая, но и из других стран, где есть собственные геополитические проблемы.

Samsung запустит 4-нм техпроцесс SFX4 для высокопроизводительных CPU и GPU — +10 % к производительности и -23 % к энергопотреблению

На симпозиуме 2023 Symposium on VLSI Technology and Circuits компания Samsung расскажет о новом техпроцессе SF4X, который предназначен для выпуска CPU и GPU для высокопроизводительных вычислений (HPC). Технология, ранее известная как 4HPC (4 нм для высокопроизводительных вычислений), призвана не только обеспечить повышение тактовой частоты и энергоэффективности чипов, но также будет обладать потенциалом для дополнительного разгона.

 Источник изображений: Samsung

Источник изображений: Samsung

Новый техпроцесс Samsung SF4X обещает повышение на 10 % производительности и при этом на 23 % более низкий уровень энергопотребления. Правда, компания пока не уточнила, с каким именно техпроцессом приводит сравнение. Вероятно, речь идёт о стандартном 4-нм техпроцессе SF4 (4LPP). Добиться улучшения производительности и энергоэффективности удалось с помощью перепроектирования стоков и истоков транзисторов, а также благодаря дальнейшей оптимизацией конструкции транзистора и перепроектированием промежуточной схемы (MOL).

Благодаря новой MOL техпроцесс SF4X может похвастаться подтверждённым минимальным напряжением для CPU (Vmin) в 60 мВ, 10-процентным снижением колебаний тока в выключенном состоянии, гарантией работы при высоком напряжении (Vdd) более 1 В без снижения производительности и более эффективной работой с SRAM.

Предполагается, что техпроцесс SF4X будет конкурировать с N4P и N4X компании TSMC, чей запуск запланирован на 2024–2025 годы. Какой техпроцесс в конечном итоге обеспечит наилучшее сочетание производительности, мощности, плотности транзисторов, эффективности и стоимости, основываясь исключительно на заявлениях производителей, предугадать невозможно.

Компоненты для высокопроизводительных вычислений (CPU и GPU для дата-центров) требуют значительного количества энергии, рассчитаны на регулярную работу с большими нагрузками и могут значительно повышать свою тактовую частоту, если возрастает потребность в более высокой производительности. Одна из главных задач новых техпроцессов, применяемых при производстве этих компонентов, связана не только с повышением производительности, но также и с повышением их энергоэффективности. Поэтому снижение у SF4X энергопотребления на 23 % по сравнению с предшествующим техпроцессом создаёт потенциал к существенной экономии средств держателей ЦОД и одновременному снижению негативных воздействий на окружающую среду этими системами.

Примечательно, что SF4X — это первый передовой техпроцесс Samsung, разработанный специально для использования в сфере HPC. Если учесть, что высокопроизводительные вычисления, в частности, ИИ, сейчас пользуются повышенным спросом как со стороны признанных лидеров рынка полупроводников (AMD, IBM, Intel и NVIDIA), так и со стороны новичков, таких как Ampere или Graphcore, у Samsung Foundry есть все основания ожидать, что эта технология будет принята по крайней мере некоторыми из более 150 её клиентов.

В Китае представили ускоритель вычислений Biren BR100, который превосходит NVIDIA Ampere A100

Китайская компания Biren Technology представила графический процессор BR100, обеспечивающий производительность до 1024 Тфлопс в 16-битных операциях с плавающей точкой и до 2048 Тфлопс в 8-битных целочисленных операциях. Решение предназначено для использования в составе специализированных высокопроизводительных вычислительных систем (HPC).

 Источник изображений: Biren Technology

Источник изображений: Biren Technology

Графический процессор BR100 — это флагманское решение компании, использующее 7-нм техпроцесс производства и технологию 2,5D-упаковки CoWoS компании TSMC. Чип использует архитектуру BiLiren и имеет на борту 77 млрд транзисторов.

Решения на его основе могут предложить до 64 Гбайт высокоскоростной памяти HBM2e с максимальной пропускной способностью на уровне 2,3 Тбайт/с, а также 300 Мбайт выделенной кеш-памяти. Для GPGPU заявляется поддержка интерфейсов PCIe 5.0 и CXL.

Производительность BR100 выше, чем у NVIDIA Ampere A100, но примерно в 2,0–2,5 раз ниже, чем у решений на базе архитектуры NVIDIA Hopper. Максимальное превосходство над NVIDIA Ampere заявляется при работе с 32-битными числами с плавающей точкой — в этом случае BR100 может предложить производительность на уровне 256 Тфлопс против 19,5 Тфлопс у решения NVIDIA.

Помимо BR100 китайская компания представила также графический чип BR104. Он предлагает урезанные вдвое характеристики и примерно вдвое меньшую по сравнению с BR100 производительность, и может использоваться в составе карт расширения формата PCIe с показателем энергопотребления до 300 Вт.

Для своих продуктов Biren Technology также представила программную платформу BIRENSUPA. Она поддерживает различные популярные фреймворки для машинного обучения, например, PaddlePaddle от Baidu.

Tachyum раскрыла характеристики процессоров Prodigy: до 128 ядер, до 5,7 ГГц и TDP до 950 Вт

Словацкая компания Tachyum обнародовала технические характеристики своих процессоров семейства Prodigy, предназначенных для решения различных ресурсоёмких задач в сфере высокопроизводительных вычислений, искусственного интеллекта (ИИ) и пр.

 Источник изображения: Tachyum

Источник изображения: Tachyum

Говорится о подготовке восьми чипов, которые объединяют от 32 до 128 проприетарных 64-битных ядер с архитектурой VLIW (см. таблицу ниже). Каждое из ядер содержит два 1024-битных векторных блока и один 4096-битный матричный блок. Размер кеша инструкций и данных составляет по 64 Кбайт в расчёте на ядро. Кроме того, есть 1 Мбайт кеша второго уровня (L2). Чипы могут применяться в составе двух- и четырёхпроцессорных систем.

Наиболее мощное изделие Prodigy T16128-AIX работает на частоте до 5,7 ГГц, а показатель TDP (максимальное значение рассеиваемой тепловой энергии) составляет 950 Вт. Реализованы 16 каналов памяти DDR5-7200; поддерживаются 64 линии PCIe 5.0. Максимально возможный объём ОЗУ равен 8 Тбайт.

 Источник изображения: Golem.de

Источник изображения: Golem.de

В семейство Prodigy также вошли модели с показателем TDP в 180, 300, 600 и 700 Вт. Они функционируют на частоте от 3,2 до 5,7 ГГц, поддерживают 32 или 64 линии PCIe 5.0.

Что касается быстродействия, то упомянутое изделие Prodigy T16128-AIX обеспечивает до 90 терафлопс (FP64) для высокопроизводительных вычислений и до 12 петафлопс (AI PetaFLOPS) для ИИ и обучения.

AMD рассказала, как уверенно движется к цели увеличить эффективность своих серверных решений в 30 раз к 2025 году

Объёмы данных, генерируемых людьми и машинами, увеличиваются в геометрической прогрессии. Это требует постоянного повышения вычислительной производительности дата-центров. Для удовлетворения этих нужд компания AMD в прошлом году поставила перед собой цель повысить эффективность своих платформ, использующихся для ИИ- и высокопроизводительных вычислений (HPC), в 30 раз к 2025 году по сравнению с её платформами 2020 года, и теперь отчиталась об успехах.

 Источник изображений: AMD

Источник изображений: AMD

На этой неделе AMD отчиталась о достигнутом прогрессе её планомерного движения к поставленной цели, которую она называет «30x25». Энергоэффективность её платформ для ускоренных вычислений ИИ и HPC, включающих процессоры EPYC и ускорители вычислений Instinct, уже увеличилась в 6,79 раза по сравнению с её решениями 2020 года. В качестве отправной точкой компания называет серверы на базе двух процессоров EPYC 7742 (64 ядра, 128 потоков, частота 2,25–3,40 ГГц, 256 Мбайт кеш-памяти и TDP 225 Вт) и четырёх ускорителей Instinct MI50 (5-е поколение архитектуры GCN, 3840 потоковых процессоров, работающих на частоте 1450–1725 МГц, TDP 300 Вт). Каждый из этих ускорителей обеспечивает производительность 5,25 Тфлопс в задачах с матрицами 4K DGEMM с инициализацией тригонометрических данных и 21,6 Тфлопс в вычислениях FP16. Общее потребление такой системы составляет 1582 Вт.

AMD к настоящему моменту выпустила 3-е поколение серверных процессоров EPYC и два новых поколения графических ускорителей на архитектуре CDNA, предназначенных конкретно для задач, связанных с ИИ-вычислениями и HPC. Серверные системы AMD 2022 года оснащаются 64-ядерными процессорами серии EPYC 7003 и четырьмя ускорителями Instinct MI250 (архитектура CDNA 2.0, 13 312 потоковых процессоров, частота 1,0–1,70 ГГц при TDP 500 Вт), которые обеспечивают в 13,66 раза более высокую производительность в операциях FP16 по сравнению с четырьмя ускорителями Instinct MI50.

Согласно общей картине задачи «30x25», AMD делает упор не только на увеличение производительности аппаратных средств для дата-центров, но также уделяет особое внимание производительности в расчёте на ватт потребляемой энергии и оптимизации программных средств, чтобы в конечном итоге снизить энергопотребление своих решений. Практически любые изменения, вносимые AMD в свои аппаратные и программные средства, продвигают компанию к достижению установленной цели.

Например, внедрение поддержки оперативной памяти DDR5 для 4-го поколения серверных процессоров EPYC Genoa, которые смогут предложить до 96 вычислительных ядер, повысят энергоэффективность систем на их основе, поскольку память DDR5 потребляет меньше питания по сравнению с памятью DDR4. А дальнейшее усовершенствование ускорителей на архитектуре CNDA посредством новых аппаратных и программных доработок и оптимизаций повысят энергоэффективность серверных систем для дата-центров нового поколения ещё сильнее.

«Хотя для достижения нашей цели “30x25” ещё многое предстоит сделать, я очень доволен работой наших инженеров и очень воодушевлён текущими результатами», — отметил технический директор AMD Марк Пейпермастер (Mark Papermaster).

window-new
Soft
Hard
Тренды 🔥
Беспощадное солнце пустыни: журналисты поделились новыми подробностями и кадрами Dune: Awakening 51 мин.
Activision Blizzard расследует кражи учётных данных у читеров 54 мин.
Пользователи Windows 11 смогут использовать ИИ-помощника Copilot без учётной записи Microsoft, но с ограничениями 2 ч.
Google сообщила, что iPhone получат поддержку современного протокола для СМС этой осенью 3 ч.
Microsoft защитила клиентские ИИ-приложения от галлюцинаций 3 ч.
Gearbox отметила уход от Embracer увольнением «бесчисленного множества» сотрудников 3 ч.
ИИ-стартап Илона Маска X.ai представил обновлённую нейросеть Grok-1.5 — она стала ближе к GPT-4 4 ч.
Пользователи Telegram из России, Украины и Беларуси смогут заблокировать сообщения от незнакомцев 4 ч.
«Золотая лихорадка закончилась»: инди-разработчикам стало невыгодно делать свои игры эксклюзивами Epic Games Store и Game Pass 4 ч.
Крупное обновление добавило в No Man’s Sky возможность создавать собственные космические корабли — фанаты мечтали об этом с 2016 года 15 ч.