SmartSpeech – сервис речевых технологий Сбера
Сбер объявил о запуске нового сервиса SmartSpeech, который позволит бизнесу без специального оборудования подключать речевые технологии, например, в интерактивном голосовом меню (IVR), автоответчике, чатах, телемаркетинговых кампаниях или в голосовых интерфейсах взаимодействия. До конца года доступ к сервису, разработанному командой SberDevices, будет бесплатным.
SmartSpeech можно использовать на сайтах, в приложениях или умных устройствах для озвучивания контента и команд или голосового ввода. Используемые в сервисе технологии синтеза и распознавания речи применяются также для создания IVR (интерактивного голосового меню) и автоответчика, что оптимизирует работу колл-центров. Сервис сам распознает и синтезирует речь, а также способен использовать «подсказки», помогающие точнее понимать пользователя в зависимости от конкретной ситуации. SmartSpeech используется и в самом Сбербанке, например, он является основой семейства виртуальных ассистентов «Салют». Этот же инструмент позволяет узнать баланс банковской карты по номеру 900 в любое время суток без ожидания оператора.
Как отмечают в Сбере, одна из задач бизнеса, которую можно решить с применением SmartSpeech, – быстро, эффективно и малозатратно дать ответ на вопрос, с которым обращается клиент. Звонящий говорит, какая услуга ему нужна, и либо сразу попадает на нужного оператора, либо получает ответ от робота. Уникальные модели распознавания тишины и шума, способность определять конец высказывания и эмоции собеседника позволяют сделать взаимодействие с роботом живым и эмпатичным, а обучение акустических моделей на большом объеме данных помогает качественно распознавать речь даже во время телефонного разговора.
При использовании сервиса не нужно заранее записывать «живую» речь: достаточно загрузить текст, и робот сам прочтет его вслух. Сервис уже предлагает несколько голосов, их библиотека продолжает расширяться, позволяя выбирать из тон, тембр и настроения звучания, подходящие конкретному бизнесу. SmartSpeech генерирует максимально естественную речь: собственная модель расстановки ударений помогает уменьшить число фонетических ошибок в синтезе, с ее помощью легко озвучивается даже сложный текст – цифры, адреса, названия.
Чтобы добиться качественного синтеза речи, команда SberDevices модифицировала архитектуру Tacotron 2, внедрив в нее контроль за частотой основного тона речи, паузами, а также изменяя интонацию в зависимости от темы текста. Для этого используется информация, полученная из модели BERT, которую предварительно обучили русскому языку на большом количестве текстов, благодаря чему синтез речи сложно отличить от речи реального человека.
Как поясняют в SberDevices, компаниям, желающим протестировать SmartSpeech, предоставляется программный интерфейс (API) для подключения и использования речевых сервисов в своих продуктах. API использует протоколы HTTP и gRPC, поэтому код можно очень быстро встроить практически в любую систему. Использование HTTP REST и gRPC API удобно, когда у бизнеса есть собственная интеграция, например, собственный клиент для телефонной платформы. Если же необходимо провести интеграцию TTS API для сайта или приложения, то HTTP – самый простой и быстрый вариант выполнения этой задачи.