Ультрамалая нейросеть «Яндекса» для носимых ИИ-устройств
Компания «Яндекс» анонсировала разработанную ею ультрамалую нейросетевую модель для голосового управления в носимых ИИ-устройствах. Размер модели удалось сократить без потери качества примерно до 200 Кбайт.
Как поясняют в «Яндексе», подход к голосовому управлению в носимых устройствах отличается от того, который используется в умных колонках или смартфонах. Компактные гаджеты сильнее ограничены по емкости аккумулятора, объему памяти и вычислительной мощности процессора. При этом система голосовой активации должна постоянно анализировать аудиопоток и обрабатывать его локально в ожидании ключевой команды, не создавая заметной нагрузки на устройство и не сокращая время его автономной работы. Для решения этой задачи команда «Яндекса» создала систему обработки голоса на нескольких уровнях – от аппаратной части до самой нейросетевой модели.
В системе применили двухэтапную систему обработки аудиосигнала. Сначала легкая модель определяет наличие речи в потоке звука, практически не нагружая устройство. Основная модель запускается только после этого и проверяет, была ли произнесена ключевая голосовая команда. Такой подход снижает постоянную вычислительную нагрузку и расход энергии.
Отдельной задачей стала оптимизация самой нейросетевой модели, поскольку именно непрерывная работа системы голосовой активации, которая ждет команду, создает основную нагрузку на аккумулятор устройства. Число параметров модели удалось сократить примерно в 10 раз за счет более компактной архитектуры нейросети, которая требует меньше вычислений без существенной потери качества распознавания. Это позволяет выполнять распознавание голосовой команды локально, без постоянной передачи аудиосигнала в облако. За счет этого снижается энергопотребление устройства и уменьшается задержка при обработке команд.
Одним из решений проблемы стало использование чипов с NPU – специализированным нейропроцессором для ускорения вычислений нейросетей с меньшим энергопотреблением по сравнению с CPU. Такой подход, отмечают в компании, может использоваться в разных устройствах с обработкой речи в реальном времени – например, в наушниках, умных часах и других компактных носимых устройствах с ИИ-функциями.