Построение «озер данных» в среде Apache Spark

--> Дата: Апр 28, 2016 87

Как объявила корпорация Teradata, входящая в нее консультационная компания Think Big, имеющая опыт внедрения Apache Spark и других технологий для работы с большими данными, расширяет свои предложения для «озера данных» и управляемых услуг, используя Apache Spark. Среда Spark представляет собой кластерную вычислительную платформу с открытым исходным кодом, которая применяется для разработки рекомендаций по использованию продукта, прогнозной аналитики, анализа данных, поступающих от датчиков, анализа графов и т .д.

Сегодня «озеро данных» с помощью технологии Apache Spark можно использовать в облаке, в общих «стандартных» средах Hadoop, или в ПАК Teradata’s Hadoop Appliance, готовой к работе корпоративной платформе, предварительно сконфигурированной и оптимизированной для работы с потоками корпоративных больших данных.

Интерес к среде Apache Spark продолжает расти, но организации, рассчитывающие на ее эффективное использование для работы с потоками данных, запросами и аналитикой, нередко осознают, что платформу Spark не так просто использовать и что «озера данных» требуют времени для планирования и проектирования. В такой ситуации есть смысл обратиться за помощью к консультантам и поставщикам управляемых услуг, у которых есть опыт успешной работы с платформой Apache Spark и «озерами данных» в различных условиях.

Компания Think Big создает тиражируемые пакеты услуг для развертывания среды Spark в качестве механизма выполнения для своих «озер данных» и управляемых услуг. При участии своего отдела обучения – Академии компании Think Big – компания также организовала серию обучающих тренингов для корпоративных клиентов. Они помогают руководителям, разработчикам и администраторам освоить работу в среде Spark и с ее разнообразными модулями, например, машинное обучение, графы, потоки данных и запросы.

Кроме того, отдел обработки и анализа данных компании Think Big предоставляет бесплатные подпрограммы для распределенного группирования K-Modes на основе интерфейса программирования приложений (ИПП) Python среды Spark. Эти программы улучшают объединение в группы качественных данных для сегментации клиентов и анализа оттока клиентов. Этот код будет доступен вместе с другими бесплатными приложениями компании Think Big на странице GitHub.