Сервис оптимизации хранения в составе Arenadata Hadoop
Компания Arenadata сообщила, что включила в состав корпоративного дистрибутива Arenadata Hadoop (ADH) новый сервис Smart Storage Manager (SSM) – инструмент оптимизации хранения и управления данными. Сервис расширяет возможности распределенной файловой системы HDFS и позволяет выбрать наиболее эффективный способ работы с данными, снижая накладные расходы на их хранение и повышая производительность запросов.
В типичной инсталляции Hadoop 80% вычислительных нагрузок приходится на обработку 20% данных. Для оптимизации управления данными в зависимости от их востребованности Smart Storage Manager анализирует частоту обращений к файлам, а далее автоматически, на основе установленных администраторами правил, перемещает «горячие» данные в кэш, «теплые» – на носители, оптимальные по производительности (SSD), «холодные» – в архив на носители, оптимизированные по объему хранения (HDD). Это позволяет снизить стоимость хранения редко используемых данных, повысить производительность чтения «горячих» данных, а также оптимизировать использование оборудования.
Smart Storage Manager обеспечивает возможность настроить асинхронную репликацию данных между разными Hadoop-кластерами или между Hadoop-кластером и облачным хранилищем. Сервис отслеживает операции изменения данных, такие как создание, удаление, добавление и переименование, чтобы обеспечить синхронизацию в реальном времени и избежать вычислительных затрат MapReduce. Предусмотрена простая настройка и управление репликацией для реализации сценариев аварийного восстановления (DR).
Как поясняют в компании, стандартный инструмент для репликации данных между разными Hadoop-кластерами – команда distcp (Distributed Copy) – подходит для пакетной репликации большого объема данных и неприменима в ряде других сценариев. С появлением SSM в Arenadata Hadoop появился новый функционал Data Sync, позволяющим реализовать асинхронную репликацию с наименьшей задержкой и влиянием на кластер-источник.
Политики и правила Smart Storage Manager позволяют гибко настраивать включение Erasure Coding – технологии отказоустойчивого распределения данных. Технология поддерживает сжатие данных в HDFS без ограничения доступа к ним для внешних приложений, что способствует экономии места в подсистеме хранения.
Сервис также включает решение для оптимизации потребления памяти при работе с небольшими файлами – их можно сжать в один файл-контейнер, который хранится в HDFS и данные в нем доступны для приложений верхнего уровня. Это позволяет снизить накладные расходы и повысить производительность записи и чтения небольших файлов.
Для удобства администраторов кластеров Smart Storage Manager предоставляет веб-интерфейс, с помощью которого можно создавать правила, запускать действия, проверять статус их выполнения и следить за статистикой кластера.