Byte/RE ИТ-издание

Технология распознавания речи NLab Speech

Компания «Наносемантика», резидент кластера информационных технологий фонда «Сколково», вышла на рынок распознавания речи, представив технологию NLab Speech. Она представляет собой набор нейросетевых алгоритмов обработки аудиосигналов и анализа текста, обученных и откалиброванных на большом количестве размеченных вручную речевых данных.

Внедрение систем автоматического распознавания речи (ASR), отмечают в фонде «Сколково», способно облегчить и оптимизировать работу в различных сферах бизнеса. К примеру, голосовой помощник, наделенный речевыми возможностями высокого уровня и распознавания слов, заменяет десятки и сотни сотрудников колл-центра, что сокращает расходы компании на персонал и повышает скорость обслуживания клиентов. Медработники с помощью голосового заполнения документов смогут быстро составлять анамнезы, а люди с ограниченными возможностями за счет голосовых технологий улучшат качество своей жизни.

Создание технологии заняло у «Наносемантики» более двух лет. Чтобы подготовить большой массив обучающих данных, команда разработала платформу для их разметки NLab Marker. C ее помощью данные преобразуются в формат, пригодный для обучения нейронных сетей.

Нейронная сеть в NLab Speech, в отличие от человека, анализирует звуковой сигнал как изображение: каждому аудио сопоставляется его спектрограмма, после чего нейронная сеть переводит спектрограммы в текстовые предположения о том, что было произнесено в аудио. Наилучший вариант определяется при помощи языковой модели, учитывающей частотные показатели совместной встречаемости слов.

Для обучения акустических моделей было собрано более 12 тыс. чамов аудио из различных источников: колл-центры, голосовые сообщения, аудиокниги, вебинары. Также были подготовлены наборы данных для обучения моделей, которые показывают лучшие результаты на записях с микрофонов пользовательских устройств, таких как смартфоны и ноутбуки. Пришлось учесть реверберацию и эквализацию при работе с аудио записями из разных источников и полученных при записи в разных условиях.

Показатель точности NLab Speech (обратный Word Error Rate) сейчас составляет более 82% на зашумленных данных из телефонии. А скорость обработки данных в облаке «Наносемантики» достигает 6 real-time factor, что на 40–80% выше скорости конкурирующих облачных сервисов.

На сегодняшний день, отмечают разработчики, технология распознавания речи NLab Speech – это самодостаточная технология, повторяющая речевые возможности человека, не требующая участия в процессе сторонних сервисов. Быстрое и масштабируемое распознавание речи работает и на процессорах, и на видеокартах. NLab Speech включает в себя как файловое распознавание речи, так и потоковое. Первое выдает только конечный результат, а потоковое – в том числе и промежуточные после каждого сказанного слова, которые корректируются в зависимости от продолжения речи (такой же принцип используется, например, в Apple Siri). Помимо прочего, ASR от «Наносемантики» работает с основными протоколами связи: websocket, grpc и mrcp – это обеспечивает гибкость NLab Speech при интеграции сервиса конкретному клиенту. Также имеется разбивка стереозаписей по диалоговым репликам для удобства использования результатов ASR в системах речевой аналитики. NLab Speech автоматически корректирует написание текста, исправляет ошибки и расставляет пунктуацию.

Для повышения точности распознавания речи в «Наносемантике» планируют внедрить в NLab Speech классификацию аудио по полу, возрасту, скорости речи, высоте тона, громкости и эмоциям говорящего, а также добавить классификацию мест по шуму окружения говорящего. Ведется также разработка английского, китайского и корейского ASR.

Вам также могут понравиться