Доступ к инструментам анализа данных в VK Cloud
Компания VK объявила, что на платформе VK Cloud будет открыт доступ для бизнеса к Cloud Spark – сервису для работы с большими данными на базе технологий Apache Spark и Kubernetes. С помощью Cloud Spark бизнес может структурировать данные из разрозненных источников для создания аналитических и предиктивных систем, а также моделей машинного обучения.
Cloud Spark обеспечивает распределенную пакетную и потоковую обработку неструктурированных и слабоструктурированных данных из разных источников, таких как S3, ClickHouse, Kafka и других. Благодаря оптимизации и кэшированию в памяти сервис выполняет аналитические запросы к данным практически любого объема.
С помощью Cloud Spark можно оперативно и с минимальными затратами на инфраструктуру решать задачи Data Science и аналитики, в том числе проводить разведочный анализ данных (EDA), а также обучать модели машинного обучения на данных компании. Аналитики и специалисты по работе с данными получают быстрый доступ к необходимым данным из разных источников посредством SQL-запросов, а ML-разработчики могут использовать возможности встроенной библиотеки MLlib для работы с машинным обучением. Все пользователи также могут управлять сервисом из любого окружения, в том числе с локального компьютера и из JupyterHub, за счет встроенной клиентской библиотеки.
Cloud Spark развернут на базе управляемого сервиса Kubernetes от VK Cloud, который позволяет автоматически масштабировать и сокращать вычислительные ресурсы в зависимости от текущей нагрузки. Таким образом, компания может оптимизировать затраты на сервис, экономя до 60% стоимости инфраструктуры при работе с большими данными. Поддержку работоспособности и администрирование Cloud Spark обеспечивает платформа VK Cloud.