Разработчики Google предложили одновременно автоматизировать процесс 3D-моделирования и улучшать его результаты. В решении используется нейронная сеть с фотографиями какой-либо местности или достопримечательностей. Фотографии для проекта взяты с краудсорсинговых ресурсов. Они сделаны под разными ракурсами в разное время, что помогает точно воспроизводить объекты и подбирать освещение в 3D.
В проекте используется метод neural radiance fields (NeRF), способный извлекать трехмерные данные о глубине помещений и объектов из двухмерных изображений путем определения границ окончания световых лучей. Метод позволяет создавать реалистичные текстурированные трехмерные модели объектов.
Во-первых, в Google развили метод до NeRF in the Wild (NeRF-W). Входными данными стали «естественные коллекции фотографий», объекты на которых распознаются под разными углами. Затем система анализирует изображения, чтобы выделить определенные структуры:
- экспозиции;
- освещение объекта;
- пост-обработку;
- погодные условия;
- различия между фотографиями.
Во-вторых, система воссоздает изображение как смесь статических элементов – геометрических форм структур и текстур.
В результате 3D-модели объектов NeRF-W можно плавно рассматривать под разными углами без задержек или искажений. Система освещения в то же время использует обнаруженные вариации различных изображений, чтобы обеспечить управление яркостью – увеличивая или уменьшая интенсивность.
NeRF-W способна убедительно воссоздавать объекты в 3D. В итоге пользователи устройств виртуальной и дополненной реальности смогут воспринимать сложные элементы архитектуры, как будто они видят их в действительности, вплоть до времени суток и и изменения погоды.
Подробности о системе Google NeRF-W размещены на arxiv.org. Решение будет обсуждаться на Европейской конференции по компьютерному зрению 2020 (European Conference on Computer Vision, ECCV) 23 августа.
Кроме Google фотографии в качестве исходных данных для 3D-моделирования используют в Intel. Компания продвигает собственный проект по созданию синтезированных версий объектов и мест. Но она отстает от NeRF-W:
- по уровню плавности переходов при просмотре;
- не предлагает возможности переменного освещения;
- не использует как основу фотографии из случайных источников.