Открыт исходный код платформы YTsaurus от «Яндекса»
Компания «Яндекс» объявила о том, что опубликовала исходный код YTsaurus – платформы для хранения и обработки больших данных, с которой работает большинство сервисов «Яндекса».
Платформа подходит для широкого круга задач, от аналитики до обучения сложных моделей с миллиардами параметров. Например, с помощью YTsaurus строится поисковый индекс, беспилотные автомобили используют платформу, чтобы обрабатывать данные о поездках и улучшать свои алгоритмы. YTsaurus управляет суперкомпьютерами «Яндекса», распределяя нагрузку так, чтобы их вычислительные мощности использовались наиболее эффективно.
Как поясняют в «Яндексе», YTsaurus – отказоустойчивая и легко масштабируемая платформа, в компании она развернута на десятках тысяч серверов и обрабатывает экзабайты данных; с ней работает каждый второй сотрудник. YTsaurus можно использовать как классическую MapReduce-систему, но при этом она поддерживает и другие подходы к обработке данных: например, у нее есть интеграции с ClickHouse и Apache Spark.
Разработка YTsaurus ведется с 2010 г. Как комментируют в компании, «Яндекс» начал строить собственную экосистему для больших данных, потому что ни одно из имевшихся на рынке решений не удовлетворяло всем требованиям. Сейчас YTsaurus – один из ключевых элементов внутренней инфраструктуры «Яндекса», над платформой работают десятки разработчиков, и ее возможности постоянно расширяются. Теперь платформа стала доступной и за пределами компании. Как считают в «Яндексе», наибольшую пользу YTsaurus может принести крупным компаниям, которые обрабатывают гигантские объемы данных на тысячах серверов в условиях постоянно возрастающей нагрузки.
Исходный код и документация YTsaurus доступны на GitHub. Код распространяется под лицензией Apache 2.0. Использовать платформу или доработать ее под себя может любой желающий.