Открыт доступ к датасету Golos Сбера
Сбер объявил об открытии доступа к датасету Golos – самому большому размеченному вручную набору речевых данных на русском языке, включающему 1240 часов аудиоданных и обученную на них модель распознавания речи, которая показывает точность, сравнимую с человеческой. Датасет можно скачать на сайте GitHub.
Данные могут быть использованы для распознавания и синтеза речи. Сбер предоставляет их по лицензии, допускающей использование в исследовательских и коммерческих целях, это более 1 млн коротких записей русской речи и соответствующие транскрипции.
Над датасетом работала команда SberDevices: создание такой базы стало возможным благодаря разработке семейства виртуальных ассистентов Салют. Было сгенерировано более 1240 часов речи, похожей на запросы пользователей. Аудиофайлы записаны при помощи краудсорсинговой платформы и специальной студии. Датасет Golos составляют обезличенные записи, прослушанные и размечены вручную. Как отмечают в Сбере, точная разметка, полученная благодаря тройному перекрытию, позволяет создавать качественные речевые технологии и продукты.
Помимо данных Сбер выкладывает обученную на них модель распознавания речи. Она обучалась с использованием мощностей принадлежащего Сберу суперкомпьютера «Кристофари» на 16 видеокартах Nvidia Tesla V100 в течение 8 дней. Доступная для использования акустическая модель QuartzNet 15×5 была обучена на данных датасетов Golos и Common Voice, а языковая модель KenLM построена на Common Crawl и аннотациях Golos.
Открытие датасета Golos, отмечают в SberDevices, – важный шаг для развития речевых технологий в России. Речевые технологии сейчас активно внедряются во всех сферах, при этом существует масса открытых данных на английском языке, но такого качественного русскоязычного датасета до сих пор не было. Датасет Golos теперь предоставляет доступные данные и на русском языке, которые можно использовать для распознавания и синтеза речи, что даст возможность научному сообществу России двигаться быстрее в совершенствовании русскоязычных речевых технологий.