Платформа MWS Cloud для хранения больших данных
Компания MWS Cloud (входит в МТС Web Services) сообщила о запуске платформы для хранения и обработки данных – MWS Data Lakehouse. Платформа позволяет работать с любыми типами данных – структурированными, неструктурированными и векторными, что дает возможность создать единую среду для выполнения разного типа задач: от построения оперативных отчетов до обучения и инференса ML-моделей и LLM.
Платформа позволяет хранить и обрабатывать любые типы данных, такие как информация о продажах и заказах, спрос на товары и логистика, информация о платежах и предоставляемых услугах. Поверх Data Lakehouse можно запустить инструменты для обучения и инференса ML и больших языковых моделей: к примеру, развернуть модель для прогнозирования спроса на товар, исходя из накопившейся информации о продажах, или спрогнозировать процент возврата кредитов, или найти оптимальный маршрут поставок. Компания может развернуть как свои сервисы для работы с ИИ, так и использовать готовые MLOps-инструменты MWS.
MWS Data Lakehouse – это cloud native-платформа, которая позволяет независимо масштабировать слои хранения и вычислений, что дает возможность эффективнее использовать имеющиеся ресурсы и размещать в ней петабайты данных. В качестве инфраструктуры для развертывания платформы могут использоваться различные решения, среди которых Kubernetes, объектное S3-совместимое хранилище, что позволяет снизить затраты компаний на 40% в сравнении с размещением в классических DWH-хранилищах. В платформу также встроены инструменты централизации контроля доступа, аудита и шифрования, динамического маскирования чувствительных данных, которые соответствуют современным требованиям информационной безопасности.
Платформа совместима с Greenplum и Postgres. Это позволяет заказчикам сохранить свои исторические активы, сократить цикл миграции, а также снизить затраты и риски, связанные с переходом на новое решение.
Data Lakehouse поддерживает широкий спектр данных, включая открытые форматы Apache Parquet и Iceberg. Система оптимизирована под разнообразные рабочие нагрузки, от SQL-запросов до задач машинного обучения. Для повышения эффективности можно запускать параллельно несколько вычислительных кластеров под разные продуктовые команды, приложения и типы запросов без дублирования данных и дополнительной репликации.
Администрирование сервиса происходит через единый интерфейс, позволяющий централизованно управлять пользователями, кластерами и масштабированием. Поддерживается динамическое изменение ресурсов вычислительных кластеров, обеспечивая непрерывность работы и отсутствие простоев при масштабировании.
Как отмечают в компании, платформа позволяет на 40% эффективнее хранить данные в сравнении с DWH и Data Lake, экономичнее использовать хранилище за счет исключения дублирования данных между разными системами, в 2,5 раза сократить время работы ИТ-специалистов за счет централизации и автоматизации функций администрирования и в 2 раза уменьшить время расчетов аналитических витрин. Архитектура платформы позволяет компаниям работать как со структурированными, так и с неструктурированными данными, что особенно важно для обучения и инференса моделей ИИ.
Платформа является частью MWS Data – комплекса сервисов MWS по работе с данными. Всего в него входит более 25 продуктов для хранения, обработки и трансформации данных, а также сервисы бизнес-аналитики и AI-агенты для работы с данными.