Byte/RE ИТ-издание

Arenadata Hyperwave – новая версия Hadoop

Компания Arenadata представила новую версию ADH 4.0.0, в которой устранены межсервисные зависимости, – теперь заказчики могут устанавливать кластеры с любым набором компонентов без обязательных hadoop-сервисов. В связи с этим компания отказалась от прежнего наименования продукта Arenadata Hadoop и перезапускает ADH под названием Arenadata Hyperwave.

Arenadata Hyperwave – универсальная гибридная платформа на основе компонентов open source и проприетарных разработок, предназначенная для хранения, обработки и анализа данных любой структуры и объема. Она предоставляет набор инструментов и сервисов для реализации современных архитектурных шаблонов – от Data Lake до Lakehouse и Data Mesh. Платформа поддерживает как простые сценарии аналитики, так и продвинутые варианты использования: машинное обучение, обнаружение аномалий, аналитику журнальных файлов и GenAI.

Как поясняют в Arenadata, на момент запуска решение ADH базировалось на жестко связанных инструментах и компонентах экосистемы Hadoop, таких как HDFS, MapReduce, Yarn, однако со временем эволюционировало в полноценную платформу данных для гибридных нагрузок. Базовая функциональность расширена за счет таких возможностей, как федеративные запросы, ACID-транзакции, автоматизированное управление хранением, безопасность корпоративного уровня и др. С устранением жесткой привязки к hadoop-сервисам в версии 4.0.0 компания изменила название продукта, чтобы отразить новые возможности платформы и современный технологический стек.

Новая версия содержит ряд функциональных обновлений:

Реализована возможность выполнять rolling restart для HDFS, ZooKeeper, Yarn и HBase. Функция позволяет перезапускать компоненты DataNode по одному (или партиями), а не все сразу. Это помогает избежать простоя сервисов и позволяет сохранить работоспособность кластера при рестарте.

Добавлен компонент Flink History Server, который отображает статистику завершенных приложений Flink в веб-интерфейсе.

Внедрен новый сервис Monitoring, разворачивающий в ADH свой сервер Prometheus, который реализует сбор и хранение метрик мониторинга кластера, а также поддерживает возможность использования веб-интерфейса Grafana для визуализации и анализа информации. Сервис включает все необходимые экспортеры и настроенные инфопанели для HDFS, Ozone, Hue, Kyuubi, Yarn, HiveServer и HiveMetastore, Impala.

Появилась возможность автоматической установки Java из репозиториев Arenadata.

Кроме того, релиз включает обновления версий сервисов, расширяющие их возможности. Так, в Trino добавлена поддержка объектного хранилища Ozone, в том числе поддержка работы с Ozone через протокол OFS. В поставку включен специализированный Trino ADB сonnector с поддержкой параллельных операций чтения/записи в кластере ArenadataDB (ADB). Реализован DBCatalogManager с версионированием и режимом обслуживания и расширенные возможности управления: конфигурацию дополнили настройки протоколирования, контроль бесперебойной работы с предустановленными значениями для текущего хранилища (HDFS/Ozone), настройки свойств сессии и групп ресурсов. Также расширены функции безопасности: для Trino добавлен плагин Ranger и возможность настройки LDAP-аутентификации через Arenadata Cluster Manager (ADCM).

В Ozone реализована возможность настройки Ozone Topology Awareness – функции, учитывающей физическую топологию сети при размещении данных. Она важна для обеспечения отказоустойчивости и общей производительности, особенно в географически распределенном кластере. При включенной функции Ozone размещает каждую реплику ключа на хосте в отдельной стойке, что гарантирует доступность данных в случае сетевого сбоя или других проблем.

Добавлена поддержка имперсонации для выполнения действий в Smart Storage Manager. Под имперсонацией понимается механизм, позволяющий сервису выполнять действия от имени другого пользователя, реализованный для соответствия политикам безопасности, изоляции данных и ресурсов между пользователями, а также аудита действий с фиксацией в журналах имени пользователя, который осуществил запуск.

В Hue теперь доступен преднастроенный интерпретатор Trino с расширенной функциональностью, включающей поддержку kerberos-аутентификации.

Для Kyuubi разработан Open Metadata Lineage Dispatcher для отправки lineage-событий на сервер OpenMetadata;

Оптимизирован ADB Spark Connector, получивший поддержку push-down-предикатов и gp_parallel_retrieve_cursor.

Реализована поддержка высокой доступности (HA) для сервисов Impala StateStore и Impala Catalog.

Вместе с обновленной Arenadata Hyperwave представлен очередной релиз подсистемы безопасности Arenadata Platform Security (ADPS). Актуальная версия 1.2.2 включает апгрейд сервиса Ranger, обновление поддержки MaintenanceМode в ADCM, возможность изменять настройки протоколирования KnoxCLI в ADCM и другие улучшения.

Вам также могут понравиться