Суперкомпьютер «Ломоносов» выдержал испытание жарой
Инженеры компании Т-Платформы" провели нагрузочные испытания суперкомпьютера "Ломоносов", установленного в НИВЦ МГУ, с целью убедиться в надежности подсистем охлаждения и питания в условиях аномально жаркой погоды в Москве. Испытания включали проверку работы системы при максимально возможной нагрузке ИТ-оборудования в условиях температур окружающей среды, близких к критическим, проверку переключения между холодильными машинами при максимальной нагрузке, а также моделирование аварийных отказов климатической системы для проверки работы автоматики по вводу резервного оборудования.
Суперкомпьютер «Ломоносов» очень компактен: 4446 вычислительных узлов и более 35 тысяч процессорных ядер размещаются на площади всего в 252 кв.м. Из-за высокой вычислительной плотности (от одного шкафа с оборудованием необходимо отводить до 65 КВт тепла) климатическая инфраструктура «Ломоносова» представляет собой сложную систему теплоотвода. Блоки кондиционеров охлаждает внутренний водяной контур общим объемом более 40 тыс. л, температуру которого поддерживает внешний контур охлаждения объемом более 10 тыс. л на основе этиленгликоля. Его охлаждают три холодильных машины снаружи здания, одна из которых находится в резерве.
В ходе испытаний инженеры отключали две холодильные машины из трех, чтобы определить запас времени при аварии в климатической системе, и тестировали автоматическое включение резервной холодильной машины. В ходе тестов производился постоянный контроль температуры внутренних компонентов вычислителя, подсистемы питания и охлаждения, температуры водяных и гликолевых контуров охлаждения, мощности и силы тока.
По результатам испытаний энергопотребление вычислительной системы при максимальной нагрузке оборудования составило 1450 кВА, а потребление всей системы с учетом инженерной инфраструктуры — более 2300 кВА. Несмотря на близкую к критической для работы охлаждающего оборудования температуру снаружи +33°С, нагрузочное тестирование не дало поводов для беспокойства. Успешно прошло и ручное и автоматическое переключение между холодильными установками, насосными группами и теплообменными контурами климатической системы. Моделирование аварийной ситуации с отключением одной из двух активных холодильных установок показало, что климатическая система имеет запас по времени в 33 мин для устранения причин возможной аварии без остановки ИТ-оборудования и снижения максимальной вычислительной нагрузки. Температура воздуха в машинном зале на всем продолжении тестовых испытаний не выходила за пределы нормы и не превышала +22°С.