Byte/RE ИТ-издание

Облачный сервис для перевода медийного контента в текст

Консорциум 3i Technologies анонсировал облачный сервис 3i Speech Recognition API, предназначенный для профессиональной обработки речевых данных из ТВ- и радиоконтента. Он позволяет с точностью более 90% переводить теле- и радиоэфиры и медиа-архивы ТВ-каналов и радиостанций в текстовый формат.

3i Speech Recognition API работает с аудио и видео любой длительности. Сервис обрабатывает загруженные в облако файлы в несколько раз быстрее реального времени звучания и выдает на выходе «стройный» текст, разбитый на предложения с расставленными знаками препинания. Бета-версия открыта для публичного тестирования.

В сервисе используются языковые и акустические модели, построенные с применением машинного обучения, технологий рекуррентных нейронных сетей (Recurrent Neural Network, RNN) и взвешенных конечных автоматов (Weighted Finite State Transducer, WFST). Вычислительная инфраструктура реализована с ускорением на графических процессорах, что позволяет получать многократный прирост производительности относительно CPU.

Языковые модели для повышения качества распознавания можно адаптировать под узкую предметную область: например, для перевода в текст «экономических» или «отраслевых» передач, в которых спикеры используют профессиональную лексику.

Бета-версия 3i Speech Recognition поддерживает русский и английский язык. Сервис будет полезен в работе разработчиков ПО, системных интеграторов, специалистов в области создания и обработки медиаконтента (телерадиовещательные компании, продакшн-студии, креативные агентства, фрилансеры и т.д.). Сервис легко интегрируется в приложения и комплексные решения сторонних разработчиков.

«Это специализированный сервис, ориентированный на обработку именно телевизионного или радио-контента. Мы разработали уникальные модели, которые позволили добиться очень высокой точности распознавания. Надеемся, что сервис будет полезен профессионалам, которые работают с медиа-контентом. В дальнейшем он может стать частью высокотехнологичных решений для массового потребителя, например, основой для перевода иностранных каналов и субтитрирования в режиме реального времени. Все технологии для создания такого продукта у компаний, входящих в консорциум, уже есть», – говорит председатель совета директоров консорциума 3i Technologies Алексей Любимов.

Консорциум 3i Technologies учрежден в 2014 г. компаниями DSS Lab и InfoQubes, в 2016 г. к нему присоединилась компания PROMT. Консорциум объединяет российские научные и инженерные коллективы, специализирующиеся на разработке технологий, продуктов и сервисов интеллектуальной обработки больших массивов данных различной природы. 3i Technologies обладает специальными технологиями поиска, обработки и анализа текстовой, аудио- и видеоинформации, которые защищены патентами и авторскими свидетельствами.

Вам также могут понравиться