Облачный GPU-сервис от RCloud by 3data и HPC Park
Платформа RCloud by 3data совместно с HPC Park анонсировала новый сервис с GPU для ускорения сложных вычислений в облаке. Эта услуга облачного агрегатора позволит на порядок ускорить процессы обработки больших массивов данных.
HPC Park Cloud Service – платформа на базе Docker-контейнеров, с помощью которых можно решать задачи высокопроизводительных вычислений (HPC), машинного обучения и искусственного интеллекта. Контейнеры получат серверные ускорители Nvidia Tesla A100. Аппаратная платформа расположена в московском дата-центре с дублированными каналами связи и резервным питанием.
Сервис HPC Park Cloud Service предоставляет контейнеры с готовым программным окружением и популярными фреймворками для ML: Pytorch, Tensorflow, чтобы специалисты в области DataScience и Big Data, могли быстро приступить к работе в привычной им среде. В последнем релизе платформу дооснастили Nvidia Cuda. Эта технология предполагает минимальное окружение без установленных фреймворков, которое может быть дополнено любым удобным программным окружением. Также у заказчиков есть возможность подключать сетевое хранилище и переключать его между контейнерами, что позволяет объединять контейнеры в сеть для горизонтального масштабирования. Взаимодействие с контейнерами возможно при помощи заранее поднятого в них Jupyter Lab или по SSH.
Сохранение состояния контейнера работает через монтирование томов Ceph, что не требует загрузки и скачивания сохраненных контейнеров. Файловая система монтируется напрямую из сетевого хранилища в любую точку кластера.
Особенность сервиса HPC Park Cloud Service – работающая технология MIG для своего рода виртуализации физической GPU-карты. Серверные GPU (A100, H100) поддерживают Multi-Instance GPU (MIG) и имеют семь независимых инстансов в одном GPU. Каждый из инстансов полностью изолирован, имеет высокоскоростную память, кэш и собственные вычислительные ядра. В рамках нового сервиса с GPU заказчику доступны контейнеры с 1/7, 2/7, 3/7 и далее до 7/7 дробных частей целой физической карты Tesla A100. Дробные части целой карты применяются для снижения стоимости или для менее ресурсоемких задач, например там, где обычно используются игровые ускорители.