Поддержка ACID-транзакций в Arenadata Hadoop
Компания Arenadata представила новую версию Arenadata Hadoop (ADH) – корпоративного дистрибутива для хранения, обработки и анализа неструктурированных и слабоструктурированных данных. Релиз расширяет возможности управления данными благодаря поддержке ACID-транзакций и веб-интерфейсу HUE для удобного взаимодействия аналитиков с базами и хранилищами данных.
В новой версии продукта в поставку включена Apache Iceberg – библиотека поддержки высокопроизводительного открытого табличного формата данных для управления информацией на уровне файловой системы. Apache Iceberg позволяет работать со структурированной информацией в озере данных, используя SQL-запросы, и интегрируется в существующую инфраструктуру благодаря совместимости с большинством технологий хранения данных (от HDFS до S3) и популярными вычислительными инструментами, такими как Spark, Impala, Hive и др.
Iceberg решает проблемы традиционных форматов таблиц и обеспечивает новые возможности, включая согласованную параллельную запись данных в разделяемые файлы в кластере, ретроспективные запросы к ранним версиям данных и откат изменений, изменение схемы хранения данных, секционирование данных и др. Использование Iceberg-таблиц позволяет повысить скорость выполнения запросов за счет инкрементальной обработки данных, быстрого сканирования и фильтрации неактуальных данных.
В новой версии Arenadata Hadoop также реализована поддержка HUE (Hadoop User Experience) – веб-интерфейса экосистемы Hadoop, предназначенного для анализа данных. Он способен подключаться к СУБД, вычислительному инструменту или хранилищу данных через нативные коннекторы и упрощает работу с источниками данных. HUE востребован широким кругом пользователей, от бизнес-аналитиков, дата-инженеров и дата-сайентистов до администраторов баз данных и SQL-разработчиков. В составе Arenadata Hadoop HUE содержит преднастроенные интерпретаторы SQL для Impala, Hive, Kyuubi и Spark SQL, а также мониторинг задач YARN и Impala и возможность просмотра файловой системы HDFS.
Как отмечают в компании, на данный момент поддержка Iceberg доступна в сервисах Spark, Impala и ограниченно в Hive (только чтение). В следующем релизе планируется расширить функциональность в Hive и добавить поддержку Iceberg-формата в Flink, что увеличит возможности потоковой обработки данных. Новый сервис HUE получит дополнительный функционал, связанный с безопасностью и отказоустойчивостью, будет расширяться и список преднастроенных интерпретаторов.
В числе других изменений в релизе Arenadata Hadoop: обновлены версии сервисов Impala, Spark, Kyuubi и Zeppelin, добавлена LDAP-аутентификация для Impala и Kyuubi и плагин Kyuubi AuthZ в Spark3 для поддержки авторизации в Ranger, упрощено управление SSL-шифрованием для сервисов кластера. Обновлена и подсистема безопасности Arenadata Platform Security: в новой версии добавлена поддержка доменного контроллера Samba и режим высокой доступности для Ranger KMS.