Data Lakehouse в облаке VK
Компания VK Tech объявила, что предоставила пользователям средства построения корпоративного Data Lakehouse на управляемых облачных сервисах. Запуск Data Lakehouse стал возможен благодаря появлению на платформе VK Cloud нового сервиса Cloud Trino для обработки больших данных из разнообразных источников.
Data Lakehouse в VK Cloud – это подход к хранению и анализу данных, который сочетает лучшие элементы «озер данных» (Data Lake) и корпоративного хранилища данных (Data Warehouse). Он позволяет снизить нагрузку на системы хранения данных, удешевить хранение неструктурированных данных и анализировать их за счет разделения вычислительных узлов и хранилищ данных.
Хранилище Data Lakehouse на платформе VK Cloud реализовано на базе S3-совместимого объектного хранилища собственной разработки и высокопроизводительного SQL-движка Cloud Trino на базе Kubernetes. Использование доработанных популярных компонентов open source в составе Data Lakehouse позволяет компаниям получить современный стек для работы с крупными проектами, с оплатой только за фактически потребленные ресурсы, без покупки лицензий.
Благодаря параллельному подключению к нескольким источникам Cloud Trino позволяет сократить время на ETL-процессы и ускорить обработку сырых данных. Пользователи из различных отделов компаний могут быстро получать доступ к данным, чтобы легко строить Self-Service-аналитику и получать ценные инсайты в реальном времени. Использование Cloud Storage (S3) сокращает в 10 раз стоимость хранения 1 Гбайт данных в облаке – до 3 руб. вместо 35 руб. для Data Warehouse. Облачный Kubernetes в основе Trino дает гибкость: позволяет оперативно расширять инфраструктуру по мере роста потребностей бизнеса, не перезакладывать инфраструктуру для пиковых нагрузок.
Data Lakehouse доступен для построения как на облачной платформе, так на собственной инфраструктуре на базе Private Cloud и VK Data Platform. Инфраструктура публичного облака VK Cloud аттестована по требованиям 152-ФЗ (УЗ-1).