реклама
Аналитика

День открытых дверей в Суперкомпьютерном центре СПбПУ. Репортаж

⇣ Содержание

Краткая справка об этом суперкомпьютере звучит так: «Занимает 3-е место в списке Top50 самых мощных российских суперкомпьютеров, 2-е место среди отечественных систем в мировом рейтинге HPCG, 131-е место в списке самых мощных вычислительных систем мира Top500 и входит в мировой рейтинг самых энергоэффективных суперкомпьютеров Green500 с лучшим в этом списке показателем среди всех российских систем». Однако за этими сухими, пусть и впечатляющими, цифрами скрываются несколько лет напряжённой работы десятков людей. В этом материале мы попробуем кратко – поверьте, это действительно кратко – рассказать о том, как создавалась эта машина, из каких компонентов она состоит, что поддерживает её работу и для чего она нужна. Устраивайтесь поудобнее!

#История проекта

Идея создания суперкомпьютерного центра (СКЦ) в Санкт-Петербургском политехническом университете Петра Великого (СПбПУ) появилась ещё в 2009 году, и пара лет ушла на то, чтобы она окончательно оформилась. Заинтересованность в собственном СКЦ была не только у самого университета, но и у всего научного сообщества России, у крупных промышленных предприятий, у производителей оборудования. Впоследствии идея нашла поддержку у правительства Санкт-Петербурга. К 2012 году она окончательно оформилась и была хорошо принята в профильных министерствах. В мае 2012 года состоялась успешная защита проекта в Минэкономразвития, по итогам которой было принято решение о его реализации – проект попал в Федеральную адресную инвестиционную программу России. В ноябре 2012 года он был включён в федеральную целевую программу «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России». Параллельно велись консультации с крупными игроками суперкомпьютерного рынка (IBM, Intel, HP, SuperMicro, «Т-Платформы», РСК) и другими научными заведениями, которые уже обзавелись своими СКЦ. В итоге группа компаний РСК выступила в роли разработчика, поставщика и интегратора основных суперкомпьютерных систем СКЦ «Политехнический» — кластерного комплекса «Политехник РСК Торнадо», массивно-параллельного суперкомпьютера «Политехник RSC PetaStream», а также программного комплекса для мониторинга и управления вычислительными системами «РСК БазИС».

Весь 2013 год ушёл на разработку технического задания и детальное проектирование будущего СКЦ, причём проект создавался с заделом на будущее – в него закладывались те решения, которые ещё не были доступны на рынке. В 2014-2015 годах шло строительство и пусконаладочные работы. К сожалению, время для него оказалось, наверное, не самым удачным из-за скачков курса валют. Итоговая стоимость проекта составила около 1 млрд 370 млн рублей. Как и почти все суперкомпьютеры в мире, данный проект без значительных дотаций государства или крупных корпораций был бы невозможен. А вот деньги на обслуживание СКЦ университет планирует зарабатывать самостоятельно. К концу 2016 года государством будут утверждены правила использования СКЦ сторонними организациями, так что они смогут арендовать вычислительные мощности. Для учёных они будут предоставляться бесплатно. Сам же СКЦ будет использован для решения научных и производственных задач, создания коммерческого ПО и, конечно, для обучения студентов и подготовки специалистов.

#Суперкомпьютер и СХД

Суперкомпьютер состоит из нескольких частей: «классического» кластера на базе систем «РСК Торнадо», массивно-параллельной системы RSC PetaStream, NUMA-системы, облачного сегмента, системы визуализации и системы хранения данных (СХД). Все они объединены с помощью интерконнекта InfiniBand FDR. Собственно говоря, такая структура — разнородная, а потому универсальная, пригодная для решения различных типов задач, — и задумывалась изначально. Вычислительная часть компактно размещается всего в нескольких шкафах. За счёт использования жидкостного охлаждения удалось достичь столь высокой плотности размещения узлов. Основной кластер на базе «РСК Торнадо » состоит из 668 узлов с суммарной пиковой производительностью 938 Тфлопс + 44 узла облачной системы. Все узлы оснащены двумя процессорами Intel Xeon E5-2697v3 (14 ядер/28 потоков, базовая частота 2,6 ГГц, Turbo-частота 3,6 ГГц, кеш 35 Мбайт, ТП 22 нм, TDP 145 ватт), 64 Гбайт RAM, SSD Intel DC S3500.

Это первый в СНГ суперкомпьютер на базе таких CPU. Часть узлов оснащена ускорителями NVIDIA K40 (12 Гбайт, 2880 CUDA-ядер). Узлы облачной части отличаются увеличенным до 128 Гбайт объёмом RAM. Кроме того, большая часть из них оснащена ускорителями NVIDIA GRID K1/K2 (8/16 Гбайт RAM, 768/3072 CUDA-ядра). К тому же, у неё есть собственная СХД ёмкостью 584 Тбайт на базе платформы «РСК Бриз» и дисковых полок. Облачная часть работает на ФС Ceph и может использоваться как для работы обычных приложений, так и для предоставления инфраструктуры виртуальных рабочих мест (VDI) и графических сервисов. СХД горизонтально масштабируется путём добавления новых блоков «РСК Бриз» и полок.

 Суперкомпьютер «Политехник»

Суперкомпьютер «Политехник»

 РСК PetaStream

RSC PetaStream

 РСК Торнадо

«РСК Торнадо»

Непосредственно с ней связана и уникальная система визуализации, позволяющая сразу же после проведения расчётов наглядно представить результаты работы. С её помощью можно организовать комфортную удалённую работу с вычислительными ресурсами или организовать систему телеприсутствия. Все узлы «РСК Торнадо» размещаются на площади 3,84 м2 в шкафах высотой 2 м (всего 6 шкафов). Каждый шкаф потребляет до 70 кВт энергии и питается от сети переменного тока 220 В. Система жидкостного охлаждения (СЖО), разработанная в РСК, позволяет отводить от такого шкафа до 100 кВт тепла.

RSC PetaStream располагается в шкафу меньшего размера и, соответственно, с более высокой плотностью (вычислительной, энергетический и физической) – 0,5×0,6×2 м. Правда, потребляемая мощность и отвод тепла здесь выше – до 400 кВт на шкаф (показатель для шкафа 1×1×2 м). Сама же система состоит из 288 узлов, в каждом из которых установлен один ускоритель Intel Xeon Phi 5120D (60 ядер/240 потоков, частота 1,053 ГГц, 30 Мбайт L2-кеш, ТП 22 нм, TDP 245 ватт) и 8 Гбайт RAM. Помимо этих двух систем в составе суперкомпьютера есть ещё один маленький шкафчик с четырьмя узлами PetaStream, который, по большому счёту, автономен. Изначально он задумывался как прототип для обкатки новых Xeon Phi, но фактически он используется наравне с остальными узлами в качестве тестовой площадки.

 Микро-ЦОД  СХД Seagate ClusterStor 6000

Слева Микро-ЦОД, справа СХД Seagate ClusterStor 6000

 Система хранения данных

Система хранения данных

 Коммутаторы InfiniBand

Коммутаторы InfiniBand

Итоговая эффективность кластера «РСК Торнадо» составляет 2,1 Гфлопс/Вт, а у PetaStream – 2,4 Гфлопс/Вт. Наконец, последний вычислительный элемент суперкомпьютера – это NUMA-система. Она состоит из 64 узлов, в каждом из которых установлено три процессора AMD Opteron 6380 (16 ядер, базовая частота 2,5 ГГц, Turbo-частота 2,8/3,4 ГГц, 16 Мбайт L2/L3-кеш, ТП 32 нм, TDP 115 Вт) и 192 Гбайт RAM. Все вычислительные системы соединены с СХД Seagate ClusterStor 6000. Данная СХД предназначена специально для работы в средах высокопроизводительных вычислений. Суммарная ёмкость хранилища составляет 1,1 Пбайт. Построено оно на базе SAS-дисков и SSD, которые могут быть объединены в массивы RAID 1 или 10. В СХД используется ФС Lustre – распределённая файловая система массового параллелизма. Кроме того, всё хранилище в целом имеет иерархическую структуру – «горячие» данные находятся в быстрой СХД, рядом находится «обычное» хранилище ёмкостью 2,5 Пбайт и СХД для облачного кластера (на базе ФС CepHS), а «холодные» бэкапы и редко используемая информация перемещается на ленточные накопители.

Помимо основной сети InfiniBand FDR (56 Гбит/с) для обмена данными каждый узел суперкомпьютера оснащён двумя гигабитными подключениями к сервисной и управляющей сетям. В самих узлах находится отдельный аппаратный модуль мониторинга и управления, который следит за загрузкой узла, его энергопотреблением и эффективностью охлаждения. За счёт этого можно гибко работать с политиками управления питанием, что в конечном итоге позволяет экономить электроэнергию и оптимизировать работу суперкомпьютера в целом. Все сетевые подключения от узлов и СХД «стекаются» в коммутационные стойки, расположенные в шкафах за основным корпусом суперкомпьютера.

 Циркуляционные насосы СЖО  Циркуляционные насосы СЖО

Циркуляционные насосы СЖО

Все основные коммуникации располагаются под фальшполом – там проходят коммуникационные и силовые кабели, а также трубы замкнутой СЖО. В первом контуре охлаждения используется дистиллированная вода с ингибиторами коррозии, а также дополнительные фильтры. Именно она омывает изнутри все узлы. Они, в свою очередь, имеют быстроразъёмные коннекторы, которые легко отсоединить для последующего обслуживания узла. Второй контур СЖО использует гликоль, что позволяет всей системе в целом эффективно работать при температуре воздуха на улице от -32 до +35 °C. Для СХД и NUMA-системы в отличие от основного суперкомпьютера используется воздушное охлаждение, но оно в конечном итоге подсоединено к основной СЖО.

Следующая страница →
 
⇣ Содержание
Если Вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
window-new
Soft
Hard
Тренды 🔥
В программу сохранения классических игр от GOG вошли S.T.A.L.K.E.R. Shadow of Chernobyl и Call of Pripyat, а Clear Sky — на подходе 39 мин.
Star Wars Outlaws вышла в Steam с крупным обновлением и дополнением про Лэндо Калриссиана 2 ч.
Миллионер с зарплатой сантехника: выяснилось, сколько зарабатывает глава OpenAI 4 ч.
Рекордная скидка и PvP-режим Versus обернулись для Warhammer: Vermintide 2 полумиллионом новых игроков за неделю 4 ч.
Роскомнадзор с декабря начнёт блокировать сайты за публикацию научной информации о VPN 4 ч.
Новый трейлер раскрыл дату выхода Mandragora — метроидвании с элементами Dark Souls и нелинейной историей от соавтора Vampire: The Masquerade — Bloodlines 5 ч.
В Японии порекомендовали добавить в завещания свои логины и пароли 7 ч.
Обновления Windows 11 больше не будут перезагружать ПК, но обычных пользователей это не касается 7 ч.
VK похвасталась успехами «VK Видео» на фоне замедления YouTube 9 ч.
GTA наоборот: полицейская песочница The Precinct с «дозой нуара 80-х» не выйдет в 2024 году 10 ч.
Redmi показала флагманский смартфон K80 Pro и объявила дату его премьеры 2 ч.
SpaceX рассказала, почему затопила ракету Super Heavy во время последнего запуска Starship 3 ч.
Астрономы впервые сфотографировали умирающую звезду за пределами нашей галактики — она выглядит не так, как ожидалось 5 ч.
Японская Hokkaido Electric Power намерена перезапустить ядерный реактор для удовлетворения потребности ЦОД в энергии 6 ч.
Meta планирует построить за $5 млрд кампус ЦОД в Луизиане 7 ч.
Arm задаёт новый стандарт для ПК, чтобы навязать конкуренцию x86 7 ч.
HPE готова ответить на любые вопросы Минюста США по расследованию покупки Juniper за $14 млрд 7 ч.
Thermaltake представила компактный, но вместительный корпус The Tower 250 для игровых систем на Mini-ITX 8 ч.
Флагманы Oppo Find X8 и X8 Pro на Dimensity 9400 стали доступны не только в Китае — старший оценили в €1149 9 ч.
«ВКонтакте» выросла до 88,1 млн пользователей — выручка VK взлетела на 21,4 % на рекламе 9 ч.