Google использует случайные фотографии для перевода статичных изображений в 3D

Разработчики Google предложили одновременно автоматизировать процесс 3D-моделирования и улучшать его результаты. В решении используется нейронная сеть с фотографиями какой-либо местности или достопримечательностей. Фотографии для проекта взяты с краудсорсинговых ресурсов. Они сделаны под разными ракурсами в разное время, что помогает точно воспроизводить объекты и подбирать освещение в 3D.

В проекте используется метод neural radiance fields (NeRF), способный извлекать трехмерные данные о глубине помещений и объектов из двухмерных изображений путем определения границ окончания световых лучей. Метод позволяет создавать реалистичные текстурированные трехмерные модели объектов. 

Фото: Google/YouTube

Во-первых, в Google развили метод до NeRF in the Wild (NeRF-W). Входными данными стали «естественные коллекции фотографий», объекты на которых распознаются под разными углами. Затем система анализирует изображения, чтобы выделить определенные структуры: 

  • экспозиции; 
  • освещение объекта; 
  • пост-обработку; 
  • погодные условия;
  • различия между фотографиями. 

Во-вторых, система воссоздает изображение как смесь статических элементов – геометрических форм структур и текстур.

В результате 3D-модели объектов NeRF-W можно плавно рассматривать под разными углами без задержек или искажений. Система освещения в то же время использует обнаруженные вариации различных изображений, чтобы обеспечить управление яркостью – увеличивая или уменьшая интенсивность. 

NeRF-W способна убедительно воссоздавать объекты в 3D. В итоге пользователи устройств виртуальной и дополненной реальности смогут воспринимать сложные элементы архитектуры, как будто они видят их в действительности, вплоть до времени суток и и изменения погоды. 

Подробности о системе Google NeRF-W размещены на arxiv.org. Решение будет обсуждаться на Европейской конференции по компьютерному зрению 2020 (European Conference on Computer Vision, ECCV) 23 августа.

Кроме Google фотографии в качестве исходных данных для 3D-моделирования используют в Intel. Компания продвигает собственный проект по созданию синтезированных версий объектов и мест. Но она отстает от NeRF-W:

  • по уровню плавности переходов при просмотре;
  • не предлагает возможности переменного освещения;
  • не использует как основу фотографии из случайных источников.