Как мигрировать на российский BI без потери качества? Сроки, стоимость и методология миграции в кейсе перехода с Qlik на PIX BI
- Успешные кейсы
Основным сдерживающим фактором в начале перестройки рынка BI в России было отсутствие реальных кейсов внедрения и миграции. Сейчас такой опыт появился, и компании с большим интересом рассматривают платформы, которые успели себя зарекомендовать.
- Риск потери вложений
Внешнеэкономическая ситуация остается труднопрогнозируемой, поэтому вложение денег в зарубежный софт недружественных стран может быть рискованным делом.
- Политика цифрового суверенитета
По мнению ряда аналитиков, в скором времени иностранный софт будет составлять не более 20% рынка.
Шаги при организации проекта миграции на примере миграции с Qlik на PIX BI
В случае миграции в сравнении с внедрением с нуля экономится порядка 30 — 50% времени и бюджета. Например, если внедрение заняло три месяца, проект по миграции займет примерно полтора. Аналогичная ситуация с расчетом бюджета.
Это связано с тем, что значительная часть работ при внедрении связана со сбором требований, обследованием текущего состояния, изучением источников данных и настройкой ETL. Если в компании уже есть работающая BI-система, она уже является готовым техническим заданием, что позволяет сэкономить время и деньги.
ШАГ 1. Аудит существующих приложений (8 часов*)
ШАГ 2. Подготовка источников данных и оптимизация модели (20 часов*)
На данном этапе ведется сбор и подготовка данных для корректного формирования будущего приложения. Здесь возможны два сценария. Если у заказчика есть DWH (корпоративное хранилище данных), сразу готовится ТЗ специалистам заказчика, которые занимаются базами данных и ETL.
Если DWH нет, возможно развернуть средства подготовки баз данных и ETL на следующих инструментах:
- СУБД (ClickHouse, PosgreSQL). Это рекомендуемый способ, который будет способствовать максимальному быстродействию приложений.
- Фреймворки трансформации и моделирования данных (DBT — Data Build Tool).
- Оркестраторы потов данных (Airflow или Dagster).
ШАГ 3. Рефакторинг интерфейса
ШАГ 4. Построение приложения на инструментах PIX (12 часов*)
ШАГ 5. Тестирование и техническая настройка
Готовое приложение передается заказчику для тестирования. После сбора обратной связи вносятся необходимые правки, а если их нет, то происходит финальная техническая настройка и задание ролей пользователей.
* Указано среднее время работы на 1 приложение, полная длительность проекта зависит от количества и сложности приложений.
Плюсы выбора PIX BI для миграции
Преимущества для бизнеса в целом:
- Система вобрала в себя лучшие свойства привычной многим BI-платформы Qlik.
- Высокая скорость внедрения: средняя длительность проекта 3-4 месяца.
- Низкая стоимость владения, дешевле, чем иностранный софт и многие российские аналоги. В PIX BI сделан акцент на возможности масштабирования системы, а минимальный пакет составит всего 5 лицензий, в то время как многие другие решения внедряются серверами по 1000 пользователей и, соответственно требуют больших вложений на старте.
- Низкие затраты на поддержку и сопровождение: возможность бизнес-пользователям работать самостоятельно благодаря инструментам self-service снижает нагрузку на ИТ-подразделения.
- Быстродействие системы за счет использования проприетарного (встроенного) хранилища ClickHouse. Причем, поскольку взаимодействие с СУБД производит сама система PIX BI, в штате не требуются отдельные специалисты, обладающие знанием ClickHouse. Быстродействие при отображении прямых таблиц достигается пагинацией — при скролле подгружается только определенный фрагмент данных.
- Работа с большими объемами данных – нагрузочные тестирования проводились с объемами 500 млн строк, для отдельных клиентов тестировались объемы в 1,5–2 млрд строк. По основным функциям система показала быстродействие на уровне Qlik.
- Платформа PIX BI начала разрабатываться самостоятельно, а не под какого-то конкретного клиента, поэтому ее функционал не узкоспециализирован и подойдет любым бизнесам и отраслям.
- Стабильное развитие платформы: ежемесячные выходы обновленной стабильной версии с новыми дополнениями и функциями.
Преимущества для бизнес-пользователей:
- Сквозная фильтрация по отчетам. Каждый отчет кликабелен, а все приложение представляет собой большую аналитическую книгу, которую можно удобно листать.
- Адаптивный интерфейс. Система подстраивается под экран любого устройства.
- Ассоциативный анализ с трехцветной индикацией подсказывает дальнейшие шаги анализа.
- Self-service – возможность даже новому пользователю за 2 часа освоить базовый инструментарий и построить отчет. Кнопочные функции фильтрации, сортировки, джоина таблиц, чтобы не использовать язык SQL.
- PIX META – язык формул, который повторяет язык формул Qlik и позволяет гибко управлять фильтрацией на уровне функций агрегации (sum, count, max, min и др.) и производить различные сложные расчеты в интерфейсе. Описание синтаксиса можно посмотреть в обновляемой библиотеке пользователя, а вскоре планируется подключить ChatGPT, который, зная синтаксис, подскажет, как составить ту или иную формулу.
Преимущества для ИТ-подразделений:
- Визуальное представление модели данных, которое дает наглядное понимание связей данных и таблиц аналогично с Qlik.
- Ролевая модель доступа – гибкая настройка правил безопасности и возможность разграничить доступ к различным объектам системы в соответствии со структурой организации и ролями в ней. Можно настраивать собственную матрицу, в отличие от систем, где вшито только 3-5 основных ролей. Планируется также реализовать доступ в разграничении по столбцам.
- JavaScript-визуализации. В систему добавлены две библиотеки: HighCharts и ECharts, каждая из которых содержит от 200 до 400 различных визуализаций. Часть визуализаций уже встроена в продукт, и их количество постоянно растет. В библиотеках также можно найти графы связей.
- Удобное оформление дашбордов – настройка шрифтов, цветов, задание индивидуальных настроек оформления в виде шаблонов. Это позволит создать для бизнес-пользователей список шаблонов, чтобы упростить работу.
- PIX ETL – модуль ETL, который встроен в продукт и позволяет собрать данные из различных источников, в том числе с помощью обширного списка коннекторов (MongoDB, еще перечислить, планируется коннектор для Oracle). Система легко воспринимает QVD-файлы из Qlik.
- RPA-робот – цифровой сотрудник, который может, например, собирать данные для системы, готовить кастомные отчеты и направлять их по списку рассылки.
- Работа со сводными таблицами. Существует возможность сводную таблицу из системы выгрузить в виде сводной таблицы Excelдля дальнейшей работы.
Roadmap развития продукта: основные вехи
Благодаря тому, что над PIX BI трудится большая команда разработчиков, компания четко следует планам развития продукта и предоставляет пользователям постоянно расширяющийся функционал.
Вот некоторые основные обновления, которые запланированы до конца 2023 года:
- Расширение языка формул PIX META
- Виртуальный помощник PIX GPT на базе ChatGPT
- Использование переменных
- Параметры (слайдер, перечисление)
- OMIT – разграничение доступа по колонкам
- Рассылка отчетов на e-mail
- Функция write-back – запись в DWH из BI
- Push-уведомления
- Создание презентаций с помощью интегрированных средств в подготовке регламентной отчетности
- Интеграция с Hadoop, ArenaData Hadoop
- Регулярное обновление новых встроенных визуализаци
В первом квартале 2024 года планируется внедрить рекомендательную систему для построения модели данных, добавить встроенные средства ML (машинного обучения) и сделать интеграцию с системой контроля версий (git).
В развитии PIX ETL также планируется много обновлений:
- Self-service инструменты по трансформации данных: объединение наборов (JOIN, UNION), группировка значений (GROUP BY), удаление дубликатов, pivot/unpivot (self-service преобразование Excel и др)
- Слияние/Разделение столбцов
- Генерация дат/календаря
- Добавление параметров/переменных в ETL
- Настройка инкрементального обновления
- Профилирование столбцов
- Data Flow. Инструмент визуализации процесса трансформации
- Интегрированный Python
- Расширение наборов коннекторов. Нативный коннектор с 1С
- Преобразование данных при загрузке файлов (типизация, парсинг, кросс-таблица, конкатенация)
- Функции агрегирования: FirstSortedValue() — выдаёт первое значение из списка, TextCount() – количество текстовых значений в поле, NumericCount() – количество числовых значений в поле, Rank() – сортировка и простановка очередности по мере
- Диапазоны. Функции над выборкой.
- Функции с фильтрами.