Byte/RE ИТ-издание

Сервис Cloud.ru для инференса больших языковых моделей

Провайдер Cloud.ru представил Evolution ML Inference – готовый облачный сервис для инференса (вывода) больших языковых моделей (LLM) с возможностью разделения графических процессоров (GPU) и гибким подходом к утилизации вычислительных ресурсов. Помимо уже доступных в рамках сервиса Cloud.ru моделей GigaChat бизнес может запускать и развертывать собственные AI-модели и любые ML/DL-модели open source из библиотеки Hugging Face на базе облачных GPU в несколько кликов.

Evolution ML Inference подойдет для компаний и пользователей, которые разрабатывают AI- и ML-решения и хотят быстро и с минимальными затратами запустить собственную ML-модель и персональный конечный продукт для работы. Это полностью управляемый сервис – пользователь только настраивает конфигурацию, модель и тип масштабирования. При этом Cloud.ru предоставляет доступ к графическим процессорам, а также выполняет полное администрирование и обслуживание инфраструктуры.

Технология Shared GPU позволяет разделять GPU-ресурсы и потреблять то количество vRAM (видеопамяти), которое необходимо для эффективной работы самой модели без задержек, с возможностью динамически перераспределять ресурсы в зависимости от текущих потребностей клиентов. По данным провайдера, это повышает утилизацию мощностей в AI-проектах от 15 до 45% в сравнении со сценарием, когда графические процессоры используется полностью.

Простота и гибкость управления сервисом дают возможность запускать как модели без сборки образа напрямую из Hugging Face, так и собственные образы со своим окружением.

Решение обеспечивает высокую степень адаптации и рациональное использование доступных ресурсов: на одной видеокарте можно одновременно запускать несколько моделей. Это делает технологию оптимальной для распределенных систем с разнородной вычислительной инфраструктурой и помогает масштабировать нагрузку.

Режим скайлирования (эффективного масштабирования) предполагает, что тарификация за использование модели начинается только в момент обращения к ней.

Сервис уже доступен для пользователей в режиме General availability и войдет в состав Cloud.ru Evolution AI Factory – готового набора инструментов для работы с ИИ в облаке.

Вам также могут понравиться