Byte/RE ИТ-издание

Голосовые технологии IBM

В начале года корпорация IBM (http://www.ibm.com) объявила о новом достижении в области голосовых технологий, которое даст возможность водителям автомобилей и пользователям карманных ПК управлять аппаратными средствами с помощью естественного языка, освободив их от необходимости заучивания специальных команд. Новый компонент программного пакета IBM Embedded ViaVoice 4.4 значительно усовершенствует технологии голосового управления для карманных устройств и навигационных систем автомобилей. При этом обеспечивается большая гибкость системы и точность выполнения указаний пользователя.

Прежде для взаимодействия с системами распознавания речи пользователям приходилось запоминать фиксированный набор фраз и команд. Теперь, благодаря разработанной IBM технологии, для управления радиоприемником водитель может просто сказать: «настроиться на частоту 104,3», или «установить приемник на частоту 104,3», или «изменить радиостанцию на 104,3». Чтобы настроить радиоприемник на желаемую волну, подходят самые разнообразные, простые и понятные фразы.

Пакет IBM Embedded ViaVoice 4.4 включает специальный компонент, который использует современные средства статистического языкового моделирования и семантической интерпретации, чтобы обеспечить взаимодействие между пользователем и системой распознавания голоса в радиоприемниках, навигационных системах или карманных ПК на естественном языке. Кроме того, новый пакет значительно повышает точность распознавания голоса на фоне любых шумов благодаря новым акустическим моделям, усовершенствованным методикам обучения и улучшенному определению границы «речь/тишина» с учетом различных случайных шумов (неровности дорожного покрытия, сирены, пересечение железнодорожной линии и т. д.).

ПО IBM Embedded ViaVoice Version 4.4 предлагает голосовые технологии для мобильных устройств, таких, как навигационные системы автомобилей, телефоны с голосовым управлением, карманные ПК, и других интеллектуальных устройств. Встраиваемые приложения могут использовать голосовые технологии IBM как для автоматического распознавания речи ASR (Automatic Speech Recognition), чтобы вводить команды в мобильные устройства, так и для преобразования текста в речь TTS (Text-To-Speech), чтобы синтезировать голос человека для воспроизведения текста и другой информации из мобильного устройства.

Помимо этого, было объявлено, что компания VoiceBox Technologies (http://www.voicebox.com) будет встраивать механизм распознавания речи IBM Embedded ViaVoice в свое решение VoiceBox Navigator — первую в мире платформу для голосового поиска в диалоговом режиме. Решение VoiceBox предоставляет пользователям возможность находить информационные ресурсы и перемещаться по ним в режиме диалога в свободной форме. Кроме того, это решение формирует и выполняет процедуры интеллектуального поиска, определяя намерения пользователя на базе контекста запроса. Что бы ему ни потребовалось — найти музыку или развлекательные ресурсы, определить маршрут движения или сделать телефонный звонок, — сочетание технологий двух компаний позволит просто и точно осуществлять навигацию по информационным ресурсам и управлять ими с мобильных устройств в режиме диалога. Принцип работы VoiceBox Navigator основан на использовании алгоритмов Knowledge Enhanced Search and Speech Recognition, определяющих контекст и намерения пользователя в диалоговом режиме, а также механизма голосового поиска, который динамически формирует и выполняет ориентированные на контекст запросы.

Первым пользователем платформы VoiceBox со встроенной технологией IBM Embedded ViaVoice стала компания XM Satellite Radio, предлагающая 160 цифровых каналов радиовещания, транслирующих музыкальные, новостные и спортивные передачи, интервью и развлекательные программы. Новое приложение позволяет водителям автомобилей находить XM-каналы, регулировать громкость, а также запрашивать данные о движении на дорогах, курсах акций, информацию о спорте и погоде — просто «разговаривая» со своим XM-радиоприемником. Планируется, что в течение этого года новую технологию уже смогут использовать компании по производству и модернизации автомобилей.

Кроме того, компании Johnson Controls (http://www.johnsoncontrols.com) и VoiceBox недавно заключили многолетний договор на использование VoiceBox Navigator для диалогового поиска и извлечения ресурсов посредством IBM Embedded ViaVoice на беспроводных мобильных устройствах BlueConnect, предлагаемых Johnson Controls для автомобильного рынка. Телематические средства голосового поиска включают голосовой набор номера с использованием технологии Bluetooth и навигацию по музыкальным ресурсам. Телематическое решение этих компаний будет использовать технологии, входящие в пакет IBM Embedded ViaVoice, и платформу VoiceBox Navigator. Технологии IBM Embedded ViaVoice гарантируют точное и надежное распознавание речи, а VoiceBox обеспечит диалоговый поиск мультимедийных и других цифровых ресурсов с помощью различных устройств в машине и дома или посредством мобильного телефона.

Photo

В заключение отметим, что компания Openstream (http://www.openstream.com) намерена интегрировать в свою платформу для мобильных решений программный продукт IBM WebSphere Everyplace Multimodal. Это даст возможность получать доступ к информации по требованию, используя различные способы ввода и вывода информации, в том числе путем голосового управления, ввода команд на клавиатуре или нажатия клавиш на телефонах, КПК и других мобильных устройствах. ПО IBM WebSphere Everyplace Multimodal основано на технологии IBM Embedded ViaVoice, позволяющей вводить данные и управлять устройством различными способами. В рамках этого комплексного подхода пользователи могут с помощью голосовых команд получить доступ к электронной почте, новостям и Web-ресурсам по требованию. Кроме того, технология позволяет преобразовывать текст в речь, так что пользователь сможет не только читать информацию, но и прослушивать ее.

Вам также могут понравиться