Технология «Наносемантики» для улучшения распознавания голоса
Компания «Наносемантика», разработчик решений на основе нейросетей, представила новую технологию для определения ключевой фразы – Keyword Spotter (KWS), которая способна существенно улучшить работу голосового помощника. Разработка основана на нейросетевой модели KWS с архитектурой CNN-Transformer, обученной на собранных компанией датасетах общей продолжительностью более 100 часов аудио. За счет такого подхода, отмечают разработчики, технология демонстрирует высокие показатели метрик точности и полноты активаций ассистента на аудио, полученных в том числе в шумных условиях.
Разработанная «Наносемантикой» технология KWS в связке с детектором голосовой активности Voice Activity Detection (VAD) может повысить точность распознавания голосовых запросов и улучшить качество работы цифровых помощников – умных колонок и цифровых ассистентов на онлайн-платформах и в приложениях. Как отмечают в компании, результаты тестирования, проведенного для коммерческого заказчика, показали, что точность распознавания ключевой фразы цифровым помощником выросла в 12 раз по сравнению с предыдущей моделью благодаря внедрению связки технологий VAD и KWS.
Качественно лучшего результата удалось добиться за счет выбранной архитектуры модели CNN-Transformer, логики обработки потокового аудио, а также объемного и разнообразного датасета. Технология VAD может отличить речь человека от других шумов, после чего направить нужные отрывки со смещениями на дальнейшее распознавание моделью определения ключевой фразы – KWS.
Модель обучается определять выбранную ключевую фразу, на которую активируется цифровой помощник. Для обучения используются созвучные фразы-мимики и большое количество различных искажений (аугментаций) – они позволяют достичь устойчивости модели к помехам и похожим на ключевую фразу словам.
При разработке под ключ для повышения показателей метрик качества KWS команда сборщиков и разметчиков данных «Наносемантики» собрала базу данных аудио с ключевой фразой, записанной женскими и мужскими голосами в разных вариантах: нейтрально, громко, шепотом, медленно, отвернувшись от устройства и т. д. Кроме того, делается разбивка по качеству звучания: часть аудиозаписей записывают в идеальном «студийном» качестве, другую часть – с посторонними шумами в различных помещениях и уличных условиях. Общая продолжительность данных для датасета превысила 100 часов.
VAD и KWS почти не разряжают батарею, а также могут быть запущены на большинстве смартфонов, в том числе оффлайн, за счет небольшого объема – VAD на базе модели CNN BilSTM занимает 0,5 Мбайт, а KWS – 4 Мбайт.