Модернизация суперкомпьютера «Говорун» в Дубне
Группа компаний РСК объявила, что ее специалисты совместно с Лабораторией информационных технологий им М.Г. Мещерякова Объединенного института ядерных исследований (ЛИТ ОИЯИ) завершили новый этап модернизации суперкомпьютера «Говорун». Вычислительные ресурсы этой системы были расширены за счет установки двух узлов на базе нового серверного решения «РСК Экзастрим ИИ» c 8 графическими ускорителями NVidia H100 в каждом и прямым жидкостным охлаждением.
Новые серверы были сконструированы и изготовлены для СК «Говорун» с учетом его архитектурных особенностей. При этом пиковая производительность ГПУ-составляющей суперкомпьютера выросла на 36% и достигла 1,4 Пфлопс (в операциях с числами с двойной точностью), а пиковая суммарная производительность всего суперкомпьютера теперь составляет 2,2 Пфлопс в операциях с числами с двойной точностью.
Решение «РСК Экзастрим ИИ» представляет собой вычислительный сервер с пулом графических карт (GPGPU) с прямым жидкостным охлаждением, попарно объединенных мостами на базе технологии высокоскоростных соединений NVLink для обеспечения быстрой передачи данных между графическими процессорами (GPU). Кроме того, оно имеет локальную подсистему хранения «теплых данных», сетевую подсистему с доступом на основе технологии GPUDirect. Реализована возможность расширения ресурсов путем подключения дополнительных пар GPU или системы внешнего хранения данных на базе пула твердотельных дисков (JBOF), подключаемой напрямую к серверу.
Конфигурация серверов «РСК Экзастрим ИИ», установленных в ОИЯИ:
- высота узла 2U;
- два процессора Intel Xeon Platinum 8468 (4-го поколения, 48 ядер, тактовая частота 2,1–3,8 ГГц, объем кэш-памяти 105 Мбайт);
- 8 графических ускорителей NVidia H100 (PCIe, 80 Гбайт);
- 1 Тбайт оперативной памяти;
- 16 Тбайт емкости хранения данных на базе SSD-дисков с интерфейсом NVMe;
- 4 блока питания производства РСК;
- система прямого жидкостного охлаждения разработки РСК.
Кроме того, в конце 2024 г. было проведено расширение системы хранения данных суперкомпьютера «Говорун», в результате чего общая емкость хранения увеличилась на 25% – с 8 до 10 Пбайт. В состав СХД вычислительного комплекса ОИЯИ были добавлены еще два узла хранения данных RSC Tornado AFS емкостью 1 Пбайт каждый. Обновленная модификация СХД RSC Tornado AFS включает серверную плату на базе процессоров Intel Xeon 4-го поколения, а также коммутатор с интерфейсом PCIe Gen4, что позволило установить по два адаптера интерконнекта с пропускной способностью 200 Гбит/с каждый. Кроме того, СХД RSC Tornado AFS поддерживает технологию GPUDirect Storage (GDS), которая обеспечивает прямую передачу данных между локальным или удаленным хранилищем и памятью графического процессора.
В вычислительной системе «Говорун» используются интегрированный программный комплекс «РСК БазИС 4» и модуль «РСК БазИС СХД» (включены в реестр российского ПО). «РСК БазИС СХД» – программный модуль, разработанный для автоматизации процесса создания статических и динамических систем хранения данных по запросам пользователей или операторов вычислительного комплекса.