Новое поколение синтеза речи от ЦРТ

--> Дата: Ноя 13, 2023 305

Искусственный интеллект (AI)Колл-центры Распознавание/синтез речи (ML SpeechToText / TextToSpeech)Центр речевых технологий (Группа ЦРТ)Чат-боты

Группа ЦРТ анонсировала синтез речи нового поколения с использованием ИИ для контакт-центров крупного бизнеса – банков, телекома, госсервисов, где технология применяется в диалоговых ассистентах. Синтез речи нового поколения уже встроен в продукты ЦРТ для создания диалоговых ассистентов и доступен для установки on-premise – на серверах клиентов, что позволяет максимально адаптировать его применение для бизнеса и улучшения клиентского опыта. В частности, у клиентов появляется возможность регулировать эмоции и манеру речи в зависимости от кейса.

Как отмечают в ЦРТ, новое поколение синтеза речи обеспечивает плавность и выразительность прочтения любого текста, при этом удалось добиться максимальной реалистичности синтезированной речи. Решение также может применяться в системах помощи слабовидящим людям и в других cценариях. Более того, подчеркивают в ЦРТ, все достижения R&D-центра компании в этой области используются для защиты голосовой биометрии от дипфейков, включая попытки подделки голоса с помощью предзаписи или синтеза речи, что особо востребовано в проектах национальных биометрических платформ и контакт-центрах, чтобы исключить попытки мошенников выдать свой голос за голос клиента.

Для достижения высокой точности, стабильности и качества генерации речи важно правильно обучить нейронную сеть на определенном количестве данных. Для создания синтеза речи для промышленного применения, отмечают в компании, требуемый объем данных снижен с десятков часов речи диктора до часа, а время выпуска готовой модели голоса сократилось с нескольких месяцев до двух недель. Это позволяет экономить финансовые ресурсы и время. Новое поколение синтеза уже доступно на русском языке, идет работа по адаптации английского и казахского языков.

В автоматизированных сценариях работы контакт-центров, когда уникальный текст ответов формируется прямо во время звонка, технология позволяет персонализировать общение с каждым клиентом, выполняя синтез в реальном времени, живо, интонационно и эмоционально корректно. В технологии также есть модуль предсказания ударений в словах и автоматическое исправление распространенных орфографических ошибок. Благодаря лингвистическому анализу текста произношение будет соответствовать нормам языка даже в сложных случаях.