Будущий искусственный интеллект с человеческим слухом

--> Дата: Дек 24, 2018 55

По сообщению «Проекта 5-100», российские ученые приблизились к созданию системы цифровой обработки речи в реальных звуковых условиях, например, при одновременном разговоре сразу нескольких людей. Исследователи из Санкт-Петербургского политехнического университета Петра Великого (СПбПУ), участника «Проекта 5-100», смоделировали процесс рецепторного кодирования звуков, путем имитации работы периферической части нервной системы человека, отвечающей за слух.

Как поясняют в СПбПУ, нервная система обрабатывает информацию в форме электрических сигналов. Восприятие внешней среды обеспечивается периферическими отделами нервной системы – анализаторами. которые отвечают за преобразование внешних воздействий в форму, пригодную для интерпретации высшими отделами центральной нервной системы – в поток электрических импульсов. На основе этих принципов человек может без особых усилий распознать голос собеседника в сильно зашумленных условиях. При этом, как утверждают ученые, автоматизированные системы, созданные на данный момент, не представляют столь эффективного решения и требуют мощных вычислительных ресурсов.

Решение данной задачи ведется в рамках гранта РФФИ учеными кафедры «Измерительные информационные технологии» СПбПУ (№ 18-31-00304). Исследователи разрабатывают методы обработки и анализа акустических сигналов на основе периферического кодирования. частично воспроизводя процессы, выполняемые нервной системой при обработке информации, и синтезируя их с модулем принятия решений, который определяет, что за сигнал был получен.

В настоящее время, по словам участников проекта, уже удалось смоделировать значительную выборку образцов нервной деятельности для гласных фонем и предложить подход, сочетающий самоорганизующиеся нейронные сети и теорию графов. Обработка данных проводилась специальным алгоритмом, который осуществляет их структурный анализ для выявления паттернов, описывающих каждую фонему. Как отмечают ученые, анализ реакции модели слухового нерва позволил идентифицировать гласные фонемы при значительном шумовом воздействии и превзошел по качеству наиболее распространенные на сегодняшний день методы параметризации акустических сигналов.

Методы, которые разрабатывают исследователи из СПбПУ, в перспективе позволят создать нейрокомпьютерные интерфейсы нового поколения, а также обеспечить более качественное человеко-машинное взаимодействие. Потенциал их практического применения представляется значимым в разнообразных сферах деятельности: кохлеарная имплантация (хирургическое восстановление слуха), разделение звуковых источников, создание новых бионических методов распознавания голоса, речи и акустических событий. Кроме того, как отмечает руководство проекта, реализуемые в рамках исследования алгоритмы обработки и анализа больших данных сами по себе являются универсальными и могут применяться для решения прикладных задач, не связанных с акустическими сигналами: так, один из методов был успешно применен в задаче обнаружения аномалий сетевого трафика.

В Проекте повышения конкурентоспособности ведущих российских университетов среди ведущих мировых научно-образовательных центров («Проект 5-100») участвует 21 университет, отобранный по результатам двух конкурсов (2013 и 2015 гг.) на предоставление государственной поддержки ведущим университетам России. Приоритетными направлениями развития «Проекта 5-100» являются наращивание научно-исследовательского потенциала российских университетов, переход на международные практики управления, интеграция образования, предпринимательства и инноваций, продвижение национальной системы высшего образования на ключевых рынках, наращивание позиций и авторитета в международном сообществе.