Плагин ITSumma для ускорения обработки данных
Компания ITSumma (Иркутск) представила разработанный ею opensource-плагин для Apache Spark, который ускоряет обработку данных за счет параллельных операций чтения и записи.
Решение spark-greenplum connector – это многофункциональный плагин для платформ обработки и анализа больших данных. Используя его вместо встроенного в Apache Spark коннектора, можно увеличить скорость чтения и записи из и в базу данных Greenplum в десятки раз и быстро масштабировать количество подключаемых и обрабатываемых источников.
С помощью коннектора дата-инженеры смогут настроить структурированный стриминг с использованием микропакетной обработки. Эта функциональность помогает получать оперативные обновления требуемых данных, что повышает скорость обработки практически до реального времени.
У spark-greenplum connector имеется и ряд дополнительных возможностей: например, использование анонимного блока или функции PL/pgSQL в качестве источника или поглотителя данных при операциях чтения и записи. Это позволяет делегировать часть обработки данных на сторону БД.
На основе коннектора можно строить ETL-решения и анализировать данные in-memory. Он обеспечивает высокую скорость передачи данных, гибкость в настройке, а также автоматически формирует схемы данных, разбивает вычисления на параллельные независимые потоки. поддерживает push-down операторы.
Как отмечают разработчики, opensource-решения Apache Spark и Greenplum используются в большинстве российских платформ для работы с большими данными. Поэтому новое решение может быть интересно многим компаниям.