Byte/RE ИТ-издание

Объектное хранилище «Диасофт» для Data Lakehouse и критичных данных

Компания «Диасофт»» анонсировала выход продукта «S3 Архипелаг» – S3-совместимого хранилища, предназначенного для работы с петабайтами данных в архитектурах Data Lakehouse, аналитических системах и для консолидации разрозненных файловых хранилищ.

Высокопроизводительная архитектура продукта включает отдельный масштабируемый слой метаданных, что решает ключевую проблему деградации при росте числа файлов. Для объектного доступа реализован S3-совместимый API и файловые интерфейсы (S3, FUSE, WebDAV, HDFS, gRPC, REST) для работы в среде разных ОС.

Ключевые преимущества «S3 Архипелаг»:

  • оптимизация использования в составе Data Lakehouse, интеграция с Digital Q.DataFactory;
  • линейная масштабируемость при работе с объектами произвольного размера – от сотен мегабайт до терабайт;
  • поддержка сильной согласованности;
  • поддержка «теплых» и «холодных» данных через гибкую иерархию;
  • горячая» репликация и перебалансировка;
  • отказоустойчивость без SPOF;
  • низкие требования к ресурсам;
  • интеллектуальная оптимизация мелких объектов, снижающая совокупную стоимость владения (TCO) инфраструктурой хранения мелких файлов на 40–60%: за счет разделения слоев метаданных (Filer) и данных (Volume) потребляет в 2–3 раза меньше CPU и RAM, чем Ceph;
  • управление временем жизни данных (TTL).

 «S3 Архипелаг» заменяет два разнородных хранилища (объектное – для аналитики, файловое – для приложений), объединяя их на общей платформе. Это сокращает затраты на оборудование и лицензии, а также операционные расходы на администрирование, мониторинг и бэкап.

Продукт обеспечивает отказоустойчивое хранение критичных данных, включая огромные коллекции мелких файлов с помощью оптимизированной архитектуры (Master-Volume-Filer). Такая архитектура обеспечивает линейную масштабируемость метаданных и позволяет хранить десятки и сотни миллиардов файлов без деградации производительности на операциях листинга и поиска.

 «S3 Архипелаг» обеспечивает «горячее» масштабирование без перерывов: емкость и вычислительные ресурсы подключаются в работающий кластер простым добавлением узлов. Система автоматически перераспределяет данные для оптимальной нагрузки.

Чтобы подтвердить готовность «S3 Архипелаг» к работе с критичными и высоконагруженными системами, в «Диасофт» провели серию тестов на эталонном стенде в среде Astra Linux Special Edition. Конфигурация из шести узлов (8 ядер, 32 Гбайт RAM, NVMe-диски и сеть 10GbE) показала, что хранилище способно выдержать более 45 тыс. операций записи в секунду, сохраняя стабильное время отклика. Это в 2,4 раза выше, чем показал Ceph RGW в аналогичных условиях на том же оборудовании.

Такой результат гарантирует, что платформа справится с пиковыми нагрузками в реальном проекте: например, в архитектуре Data Lakehouse, когда сотни потоков данных одновременно пишут сырую информацию в Bronze-слой, а движки Spark и Trino выполняют сложные запросы к Silver и Gold-слоям. Высокая производительность «S3 Архипелаг» позволяет наращивать объемы хранилища, просто добавляя серверы в кластер, без деградации скорости и сюрпризов при масштабировании.

Для отказоустойчивости используется гибридная схема. Для «горячих» данных настраивается многократная репликация для скорости, для «холодных» архивов применяется стирающее кодирование (Erasure Coding) с экономией дискового пространства до 40% по сравнению с трехкратной репликацией при сохранении сопоставимого уровня отказоустойчивости.

Продукт обеспечивает выполнение требований КИИ, ИСПДн и ГИС за счет встроенных механизмов: сквозное шифрование (AES-256, TLS 1.3), гранулярное управление доступом с интеграцией LDAP/AD/Kerberos, Object Lock для защиты от удаления и детальный аудит всех операций.

В планах развития продукта – экстремальная оптимизация для Apache Iceberg и Hudi с целью повысить эффективность работы с фоновыми процессами, которые генерируют тысячи операций с файлами, снизив нагрузку и ускорив выполнение. Планируется также углубленная интеграция с российской СУБД Digital Q.DataBase и автоматизация жизненного цикла данных с использованием AI для прогнозирующей оптимизации.

Вам также могут понравиться