Суперкомпьютеры в промышленном секторе: вызовы и задачи, подход Dell
Артем Гениев, менеджер по корпоративным системам Dell
Современное производство требует изменения подхода к организации работы предприятия, нестабильная экономическая обстановка и жесткая конкурентная борьба требуют повышения производительности труда и эффективности операций. Многие предприятия сегодня пытаются оптимизировать цепочки поставок для снижения затрат на разработку и производство, пытаясь при этом сохранить высокий темп выпуска новых продуктов и высокое качество продукции. Успех предприятия в высококонкурентной среде зависит от множества факторов, включающих производительность всех операций, ускорение цикла разработки продуктов и соответствие нормативным требованиям.
Существуют разные способы увеличить операционную производительность и, оптимизировав процессы по различным направлениям, сократить издержки, но, независимо от выбранной стратегии, использование высокопроизводительных вычислительных сред является критичным аспектом для достижения успеха.
Для того чтобы быстро реагировать на изменение спроса со стороны потребителей и создавать продукт, обладающий конкурентными преимуществами, предприятию необходим непрерывный цикл разработки, позволяющий постоянно сокращать время, необходимое для выпуска новых продуктов на рынок.
Компьютерные симуляции при использовании на каждом этапе разработки или испытаний позволяют значительно ускорить выход новых, качественных и конкурентных продуктов, обеспечив при этом сокращение издержек. Программные решения, обеспечивающие максимально точную симуляцию поведения продукта, требуют огромных вычислительных ресурсов. Есть разные подходы к тому, каким именно образом следует организовать эти ресурсы. С одной стороны, использование одного мэйнфрейма позволяет консолидировать множество производственных задач и обеспечивает высокую производительность и отказоустойчивость. Но при этом предприятие может оказаться заложником такого подхода, мэйнфреймы используют проприетарные архитектуры и технологии, что означает привязку предприятия к тому или иному производителю. Являясь «закрытой» инфраструктурой, мэйнфрейм требует существенных инвестиций в квалификацию обслуживающего персонала, услуги по введению в эксплуатацию и дальнейшую модернизацию решения.
Более разумным для решения задач CAE (Computer Aided Engineering) представляется использование высокопроизводительных вычислительных кластеров (HPCC, High Performance Computing Cluster). Подобное решение, построенное на основе открытых архитектур среды вычислений (x86), передачи (например, Infiniband) и хранения данных (CIFS/NFS/FC/iSCSI), а также среды управления, позволяет радикально сократить совокупную стоимость владения и максимально быстро вернуть сделанные инвестиции.
Последнее время наметился явный тренд на использование GPU (графических ускорителей) в решениях HPCC. Несмотря на существенные отличия в программирование для таких решений, такой подход обладает рядом преимуществ, а именно:
- Невероятный потенциал производительности
- CPU — 96 GFLOPS на сокет (~ 1500 долл.)
- GPU — 1000+ GFLOPS (~500 — 1500 долл.)
- Лучшее соотношение цена/производительность
Dell уже сейчас предлагает решения для построения HPCC с использованием GPU. Совсем недавно Dell анонсировала новый блейд-сервер PowerEdge M610x, отличающийся возможностью установки в лезвия двух стандартных плат расширения PCIe. Сервер позволяет установить до двух процессоров Intel Xeon серии 5600, до 192 Гбайт ОЗУ, до двух жестких дисков с горячей заменой и до двух дополнительных сетевых контроллеров, выполненных в форм-факторе mezzanine-карт. Кроме того, в PowerEdge M610x можно установить две платы расширения PCIe x16 Gen 2.0 полной длины, полной высоты с энергопотреблением 2×250 Вт (или 1×350 Вт). Dell предлагает для установки в данный сервер ускорители GPGU Nvidia Tesla, позволяющие получить производительность более 400 GFLOPS с одного лезвия M610x или более 3,2 TFLOPS с одного шасси PowerEdge M1000e (10U). Итогом является плотное, производительное и энергоэффективное решение для задач HPC. Кроме того, в M610x можно установить сверхпроизводительные твердотельные носители FusionIO или любой другой совместимый контроллер (HBA, RAID и т.д.)
HPCC относятся к сложным решениям в силу большого числа как аппаратных, так и программных компонентов. Компания Dell считает необходимым переосмысление существующего в мире подхода к построению высокопроизводительных систем и видит основную задачу в максимальной стандартизации и упрощении HPCC. Важнейшим элементом новой стратегии является активное участие Dell в программе Intel Cluster Ready. Данная инициатива Intel призвана максимально упростить подбор правильного решения за счет тестирования и валидации аппаратных и программных составляющих решения для того, чтобы гарантировать совместимость и корректную работу всего комплекса в целом.
Чтобы упростить процесс подбора правильного решения, Dell предлагает ряд простых и удобных инструментов, в том числе и референсные архитектуры комплексов. В рамках данного обзора мы рассмотрим HPCC как начального уровня (32 ноды, стоечные серверы), так и средние по производительности (128 нод, блейд-серверы).
Решение начального уровня представлено на рис. 1.
Данная конфигурация HPPC включает 32 сервера PowerEdge R410 (compute nodes), каждый из которых оснащен двумя процессорами Intel Xeon 56xx, оперативной памятью DDR3, интегрированным двухпортовым контроллером Gigabit Ethernet и HCA InfiniBand. Сервер PowerEdge R710/R510 с подключенной системой хранения данных PowerVault (MD3200/1200) или Equallogic обеспечивает управление комплексом (master node), а также функции шлюза NFS. Для мониторинга состояния аппаратных компонентов решения используется ПО управления Dell Management Console (DMC), которое дополняет функционал встроенных в серверы контроллеров Lifecycle Controller и iDRAC6, обеспечивающих существенно более простое развертывание комплекса, управление жизненным циклом и полный контроль серверов. Среда коммутации состоит из трех фабрик: Infiniband для межнодовой коммуникации, Gigabit Ethernet для in-band управления и (опционально) фабрика для OOB (out-of-band) управления аппаратными платформами.
Решение среднего уровня, представленное на рис. 2, использует 128 блейд-серверов (например, PowerEdge M610) в качестве вычислительных узлов.
Использование блейд-серверов позволяет существенно увеличить плотность комплекса. Так, для 128 узлов достаточно четырех шасси PowerEdge M1000e (суммарно 80 RU в стойках). Для обеспечения достаточной производительности и масштабируемости среды хранения данных используются мощные системы блочного доступа Dell|EMC, подключенные через фабрику Fibre Channel к узлам, на которых работает кластерная файловая система.
Отдельно стоит упомянуть платформу управления вычислительным комплексом. Наиболее популярными в настоящий момент являются решения на основе Linux. Несмотря на то что такие решения обеспечивают производительность и гибкость, не все организации обладают квалификацией, позволяющей управлять и обслуживать такие решения. Именно поэтому Dell предлагает интегрированную, простую в работе, платформу управления Platform HPC Workgroup Manager (HPC-WM). Весь стек комплекса представлен на рис. 3, цветом выделен сегмент стека, перекрываемый HPC-WM.
В состав HPC-WM входят простая в работе Web-консоль, средства управления нагрузками, выделения ресурсов, инструментарий для организации работы кластера (в том числе различные варианты MPI), средства мониторинга и многое другое.
Большое внимание при выборе HPCC-решения необходимо уделить вопросам энергоснабжения и охлаждения. Серверы Dell отличаются энергоэффективностью, которая достигается за счет инновационного подхода к дизайну и управлению системой охлаждения серверов, использования блоков питания с КПД преобразования более 90% и возможностью выбора различных номиналов мощности, а также многих других решений, воплощенных в «железе» и встроенном ПО. Использование блейд-серверов позволяет добиться еще большей энергоэффективности, но в силу высокой плотности решения вопрос организации охлаждения требует аккуратного и вдумчивого подхода. Мы рекомендуем использовать стандартизованные решения компаний APC и Schneider Electric, в которых применяются чиллеры (водяное охлаждение) и изолированные коридоры.
Перейти на главную страницу обзора