Облачная платформа Oracle для Data Science

--> Дата: Фев 26, 2020 47

Корпорация Oracle объявила о доступности платформы Oracle Cloud Data Science Platform с семью новыми сервисами, в основе которой лежит Oracle Cloud Infrastructure Data Science. Новые сервисы помогут предприятиям развивать проекты в области Data Science благодаря решению задач совместной разработки, обучения, управления и развертывания моделей машинного обучения. В отличие от продуктов для обработки данных, которые ориентированы на отдельных исследователей, сервис Oracle помогает повысить эффективность деятельности групп специалистов по обработке и анализу данных. Для этого предлагаются такие возможности, как общие проекты, каталоги моделей, групповые политики безопасности, обеспечиваются воспроизводимость и аудит. Oracle Cloud Infrastructure Data Science автоматически выбирает оптимальные обучающие наборы данных благодаря использованию AutoML для выбора и настройки алгоритма, оценки и объяснения модели.

С помощью Oracle Cloud Infrastructure Data Science организации могут ускорить успешное развертывание моделей, получить для предиктивной аналитики результаты и производительность корпоративного уровня и обеспечить положительные результаты для бизнеса. Этот сервис включает автоматизированный процесс обработки данных, экономя время и уменьшая количество ошибок, а также предоставляет мощные возможности поддержки коллективной работы, обеспечивая совместную работу специалистов по анализу и обработке данных.

В числе новых сервисов Oracle Cloud Data Science Platform – каталог данных для обнаружения, поиска, организации, обогащения и создания активов данных; сервис больших данных, обеспечивающий полную реализацию Cloudera Hadoop; сервис, который предоставляет SQL-доступ к HDFS; полностью управляемый сервис для запуска приложений Apache Spark. Новые сервисы объединяют комплексный опыт, улучшают и ускоряют получение результатов в проектах Data Science:

• Cloud Infrastructure Data Science – позволяет создавать новые модели машинного обучения, обучать их и управлять ими в среде Oracle Cloud с использованием Python и других инструментов и библиотек с открытым исходным кодом, включая TensorFlow, Keras и Jupyter.

• Autonomous Database с новыми возможностями машинного обучения – алгоритмы машинного обучения тесно интегрированы в автономную базу данных Oracle с новой поддержкой Python и автоматизированного машинного обучения. Предстоящая интеграция с сервисом Oracle Cloud Infrastructure Data Science позволит разработчикам создавать модели, используя как открытый код, так и масштабируемые алгоритмы в самой базе данных. Уникальное применение алгоритмов к данным в Oracle Database ускоряет получение результатов за счет сокращения времени подготовки и уменьшения потребности в перемещении данных.

• Cloud Infrastructure Data Catalog – каталог данных помогает пользователям обнаруживать, находить, организовывать, обогащать и отслеживать активы данных в Oracle Cloud. Каталог имеет встроенный бизнес-глоссарий, позволяющий легко подбирать и находить нужные и доверенные данные.

• Big Data Service – предлагает полную реализацию Cloudera Hadoop с существенно более простым управлением по сравнению с другими предложениями Hadoop. Например, одним щелчком мышью можно создать кластер высокой доступности или обеспечить безопасность. Big Data Service также включает машинное обучение для Spark, что позволяет выполнять алгоритмы машинного обучения Spark в памяти с использованием одного продукта и с минимальным перемещением данных.

• Cloud SQL – позволяет выполнять SQL-запросы к данным в HDFS, Hive, Kafka, NoSQL и объектном хранилище. Только CloudSQL позволяет любому пользователю, приложению или аналитическому инструменту, которые могут взаимодействовать с базами данных Oracle, прозрачно работать с данными в других хранилищах данных, используя преимущества обработки со спуском (push-down) и горизонтальным масштабированием (scale-out) данных для минимизации их перемещения.

• Cloud Infrastructure Data Flow – полностью управляемый сервис больших данных, позволяющий пользователям выполнять приложения Apache Spark, не создавая инфраструктуру для их развертывания или управления ими. Это дает возможность быстрее выпускать приложения с использованием больших данных и ИИ. В отличие от конкурирующих сервисов Hadoop и Spark, сервис Oracle Cloud Infrastructure Data Flow предлагает единое окно для отслеживания всех заданий Spark, позволяющее легко выявлять ресурсоемкие задачи или диагностировать и устранять проблемы.

• Cloud Infrastructure Virtual Machines for Data Science – виртуальные машины Oracle Cloud Infrastructure для Data Science, предварительно сконфигурированные среды на базе графических процессоров с общими IDE, блокнотами и фреймворками, которые можно настроить и запустить менее чем за 15 мин за 30 долл. в день.