Ученые Facebook, Техасского университета в Остине и Университета Карнеги-Меллона изучают возможности визуализации помещений и составления поэтажных планов при помощи аудиовизуальных эффектов и искусственного интеллекта. Свой подход они назвали AV-Map.
Создание плана этажа в сложном архитектурном помещении, как правило, требует установки 3D-датчиков и камер. Звук предоставляет пространственные и семантические сигналы, обогащая возможности отображения обстановки. Так, звуковые волны отражаются от поверхностей различных объектов и раскрывают форму комнаты за пределами объектива камеры.
Звуковые сигналы от кондиционера, микроволновки, воды могут косвенно указывать на предназначении комнаты.
Сейчас AV-Map конвертирует видеоролики с многоканальным звуком в двухмерные планы этажей. Для распознавания структуры и семантики (целей использования помещения) плана этажа технологии машинного обучения применяют последовательность аудио- и визуальных данных. В дальнейшем информация объединяется при помощи компонента-декодера.
AV-Map схематично показывает свободное пространство и предназначения «обжитого» пространства. Решение протестировано в цифровой среде из популярных наборов данных Matternet3D и SoundSpaces, загруженных в симулятор AI Habitat с двумя типами настроек: активными и пассивными.
В первом типе проверок ученые применили виртуальную камеру с резонирующим звуком, а во втором типе использовались только обычные звуки. AV-Map при помощи видеозаписей 85 больших реальных пространств AI Habitat превзошел обычный метод с применением видеокамер. Достаточно нескольких фрагментов с охватом четверти площади, чтобы AV-Map создала поэтажный план с точностью в 66%.
Разработчики запланировали дополнить методику роботом-агентом. «Изучив массу информации, мы пришли к выводу, что наша попытка генерирования планов этажей на основе аудиовизуальных данных является первой в мире», – указывается в материалах исследования.