Система распознавания речи от Microsoft – на уровне человека
По сообщению Microsoft, разрабатываемая ею технология распознавания голоса впервые достигла уровня, аналогичного человеческому. Исследователям Microsoft Research удалось снизить долю ошибок до 5,1%, тогда как у человека этот показатель, по данным ученых, составляет от 5 до 6%.
Нововведения, которые позволили достичь такого низкого уровня ошибок, описаны в научной работе, опубликованной сотрудниками Microsoft Research. Они использовали сочетание сверточной нейронной сети (CNN) и модели долгой краткосрочной памяти (LSTM), а также ряд подходов, которые и ранее применялись в машинном распознавании речи.
Для проверки результатов использовался тест Switchboard («Коммутатор») – общепринятый в индустрии языковой корпус, на котором испытывают работу машинного распознавания английской речи. Он состоит из записей разговоров нескольких человек на определенные темы.
Существует и другой, более сложный тест, он называется CallHome («Звонок домой»), где собеседников больше, а тема разговора не задана. В нем нейросетям пока что лишь предстоит сравняться с человеком: частота ошибок машинного распознавания речи Microsoft здесь еще превышает 10%. Среди других задач, которые предстоит решить ученым, – распознавание речи на совещаниях, где люди зачастую говорят одновременно.
Технология распознавания речи используется в ОС Windows, цифровом помощнике Cortana, Microsoft Office, Skype и прочих приложениях компании. Предполагается, что ее улучшенная версия будет введена в эксплуатацию в ближайшие несколько месяцев.
Это значительный шаг вперед по сравнению с показателем 6,3%, который система распознавания Microsoft показывала в сентябре 2017 года.