Ученые из Беркли распознают беззвучную речь с помощью электродов и AI

Ученые из Калифорнийского университета в Беркли сообщили, что они первыми обучили искусственный интеллект (AI) технологии silent speech (интерфейс безмолвного доступа; речевые сигналы на ранней стадии артикуляции) и датчики, фиксирующие активность мышц. Silent speech обнаруживается с помощью электромиографии (ЭМГ), когда электроды помещаются на лицо и горло. Модель AI фокусируется на цифровом звучании. Решение распознает слова и генерирует синтетическую речь.

Разработанный метод может повлиять на создание ряда приложений для людей с ограниченными возможностями, поддерживать функцию обнаружения речи умными помощниками и других устройств, управляемых голосом.

Фото: UC Berkeley

Для распознавания слов в silent speech ученые использовали подход, «при котором целевые объекты аудиовыхода конвертируются из озвученных в беззвучные записи тех же высказываний». Затем они применили декодер WaveNet для создания прогнозов речи со звуком.

По сравнению с базовым уровнем, обученным на базе ЭМГ-данных со звуком, разработанный метод ошибается реже:

  • в словах при транскрипции предложений из книг количество ошибок упало с 64 до 4%;
  • в общем количество ошибок сократилось на 95% по сравнению с исходным уровнем.

Чтобы стимулировать дополнительные разработки в этой области, ученые разместили открытый датасет 20 часов записи данных ЭМГ лица.

«Цифровое озвучивание беззвучной речи имеет множество потенциальных сценариев применения. Например, его можно использовать для создания устройства, аналогичного Bluetooth-гарнитуре, которое позволяет людям вести телефонные разговоры, не мешая окружающим. Оно также может оказаться полезным в условиях избыточного шума, чтобы уловить едва слышимую речь, или в местах, где важно сохранять тишину», – отмечается в научной статье разработчиков.