Облачная платформа Yandex Cloud открыла доступ к обновленной версии сервиса для полного цикла машинного обучения Yandex DataSphere. Теперь разработчики могут использовать для ML-задач в сервисе выделенные виртуальные машины. Это поможет ИТ-специалистам, которые привыкли работать с алгоритмами в собственной инфраструктуре, переносить ML-вычисления в облако. Кроме того, в Yandex DataSphere стало удобнее настраивать среду разработки, что позволит быстрее обучать и выводить модели в продакшн.
Новый режим работы Yandex DataSphere Dedicated дает возможность пользователю зарезервировать виртуальную машину в облаке под свой проект и работать с ней столько, сколько потребуется. За счет привычной работы с вычислительными ресурсами в режиме Dedicated ускоряется разработка моделей машинного обучения для различных задач анализа данных.
Помимо нового режима Dedicated, в Yandex DataSphere остается возможность выбрать режим Serverless при обучении моделей. Технология бессерверных вычислений позволяет автоматически подключать виртуальную машину нужного типа только на время непосредственных расчетов (обучение моделей, запуск и других вычислений). Этот режим позволяет пользователю оплачивать вычислительные мощности только во время реального обучения, оптимизируя расходы на вычисления.
В Yandex DataSphere также появилась новая версия Jupyter Notebook – популярного редактора кода для ML-разработки. Обновленный интерфейс, а также предустановленные расширения, например навигация по блокноту внутри ноутбука, делают удобнее работу с Jupyter Notebook. Кроме того, в Yandex DataSphere можно настроить прозрачную визуализацию использования ресурсов: в режиме реального времени отслеживать, какие ресурсы доступны на используемых машинах и как они утилизируются.
В DataSphere есть все необходимые инструменты для полного цикла разработки машинного обучения, а также интеграции с другими облачными сервисами платформы – Data Proc (управление Apache Spark) и Data Transfer (инструмент для передачи данных). ML-специалист может подключать внутри сервиса необходимые библиотеки для параллельной обработки данных на кластерах Spark и напрямую – различные облачные хранилища для анализа и хранения данных. Yandex DataSphere подходит и для командной работы: к проектам можно подключать других ML-разработчиков и специалистов, которые задействованы в работе с моделями машинного обучения. Например, инженер поддержки может корректировать настройки для эксплуатации модели, а администратор – управлять настройками доступа.