Группа ученых Вашингтонского университета предложила использовать беззвучные видеоролики с исполнением различных мелодий на клавишных для обучения технологий искусственного интеллекта.
Машинное обучение стало основой системы Audeo. Задача Audeo — формировать звуковые дорожки при помощи анализа беззвучных видеороликов. Приложения для распознавания треков (SoundHound, Shazam) правильно идентифицировали пьесу, созданную Audeo примерно в 86% случаев.
Ученые обучили и протестировали систему на видео YouTube-канала пианиста Пола Бартона (Paul Barton). На этапе тестирования решение проанализировало около 172 тыс. видеокадров, на которых Исполнитель играл музыку известных композиторов-классиков, таких как Бах и Моцарт. Затем они протестировали Audeo на 19 тыс. кадров, на которых Бартон играл различные произведения различных авторов.
Audeo «просматривая» видео, определяет, какие клавиши нажимаются в каждом кадре видео. Затем технология создает хронологическую диаграмму и преобразует диаграмму в данные. После данные очищаются и вносится дополнительная информация (например, о силе и продолжительности нажатия на клавиши).
Audeo передает расшифровку на синтезатор, который транскрибирует ее в звук. Каждый синтезатор заставляет музыку звучать немного иначе: это похоже на изменение настройки «инструмента» на электрической клавиатуре. Ученые на этом этапе задействовали использовали два разных синтезатора.
Цель исследования — показать, что AI способен создавать музыку. Одним из потенциальных приложений комбинация Audeo с виртуальным фортепиано с камерой, записывающей только движение рук человека. Кроме того, поместив камеру поверх реального фортепиано, Audeo способно помочь в разработке новых способов обучения студентов игре, отметили ученые.