Ученые Facebook, Техасского университета в Остине и Университета Карнеги-Меллона изучают возможности визуализации помещений и составления поэтажных планов при помощи аудиовизуальных эффектов и искусственного интеллекта. Свой подход они назвали AV-Map.

Создание плана этажа в сложном архитектурном помещении, как правило, требует установки 3D-датчиков и камер. Звук предоставляет пространственные и семантические сигналы, обогащая возможности отображения обстановки. Так, звуковые волны отражаются от поверхностей различных объектов и раскрывают форму комнаты за пределами объектива камеры.

Звуковые сигналы от кондиционера, микроволновки, воды могут косвенно указывать на предназначении комнаты.

Сейчас AV-Map конвертирует видеоролики с многоканальным звуком в двухмерные планы этажей. Для распознавания структуры и семантики (целей использования помещения) плана этажа технологии машинного обучения применяют последовательность аудио- и визуальных данных. В дальнейшем информация объединяется при помощи компонента-декодера.

AV-Map схематично показывает свободное пространство и предназначения «обжитого» пространства. Решение протестировано в цифровой среде из популярных наборов данных Matternet3D и SoundSpaces, загруженных в симулятор AI Habitat с двумя типами настроек: активными и пассивными.

В первом типе проверок ученые применили виртуальную камеру с резонирующим звуком, а во втором типе использовались только обычные звуки. AV-Map при помощи видеозаписей 85 больших реальных пространств AI Habitat превзошел обычный метод с применением видеокамер. Достаточно нескольких фрагментов с охватом четверти площади, чтобы AV-Map создала поэтажный план с точностью в 66%.

Разработчики запланировали дополнить методику роботом-агентом. «Изучив массу информации, мы пришли к выводу, что наша попытка генерирования планов этажей на основе аудиовизуальных данных является первой в мире», – указывается в материалах исследования.