Byte/RE ИТ-издание

Сервис оптимизации хранения в составе Arenadata Hadoop

window.yaContextCb.push(()=>{ Ya.Context.AdvManager.render({ renderTo: 'yandex_rtb_R-A-1976819-1', blockId: 'R-A-1976819-1' }) })

Компания Arenadata сообщила, что включила в состав корпоративного дистрибутива Arenadata Hadoop (ADH) новый сервис Smart Storage Manager (SSM) – инструмент оптимизации хранения и управления данными. Сервис расширяет возможности распределенной файловой системы HDFS и позволяет выбрать наиболее эффективный способ работы с данными, снижая накладные расходы на их хранение и повышая производительность запросов.

В типичной инсталляции Hadoop 80% вычислительных нагрузок приходится на обработку 20% данных. Для оптимизации управления данными в зависимости от их востребованности Smart Storage Manager анализирует частоту обращений к файлам, а далее автоматически, на основе установленных администраторами правил, перемещает «горячие» данные в кэш, «теплые» – на носители, оптимальные по производительности (SSD), «холодные» – в архив на носители, оптимизированные по объему хранения (HDD). Это позволяет снизить стоимость хранения редко используемых данных, повысить производительность чтения «горячих» данных, а также оптимизировать использование оборудования.

Smart Storage Manager обеспечивает возможность настроить асинхронную репликацию данных между разными Hadoop-кластерами или между Hadoop-кластером и облачным хранилищем. Сервис отслеживает операции изменения данных, такие как создание, удаление, добавление и переименование, чтобы обеспечить синхронизацию в реальном времени и избежать вычислительных затрат MapReduce. Предусмотрена простая настройка и управление репликацией для реализации сценариев аварийного восстановления (DR).

Как поясняют в компании, стандартный инструмент для репликации данных между разными Hadoop-кластерами – команда distcp (Distributed Copy) – подходит для пакетной репликации большого объема данных и неприменима в ряде других сценариев. С появлением SSM в Arenadata Hadoop появился новый функционал Data Sync, позволяющим реализовать асинхронную репликацию с наименьшей задержкой и влиянием на кластер-источник.

Политики и правила Smart Storage Manager позволяют гибко настраивать включение Erasure Coding – технологии отказоустойчивого распределения данных. Технология поддерживает сжатие данных в HDFS без ограничения доступа к ним для внешних приложений, что способствует экономии места в подсистеме хранения.

Сервис также включает решение для оптимизации потребления памяти при работе с небольшими файлами – их можно сжать в один файл-контейнер, который хранится в HDFS и данные в нем доступны для приложений верхнего уровня. Это позволяет снизить накладные расходы и повысить производительность записи и чтения небольших файлов.

Для удобства администраторов кластеров Smart Storage Manager предоставляет веб-интерфейс, с помощью которого можно создавать правила, запускать действия, проверять статус их выполнения и следить за статистикой кластера.

Вам также могут понравиться