Ученые из Лаборатории вычислительной фотографии университета Саймона Фрейзера (Канала) разрабатывают решение, которое позволит компьютерам видеть глубину на фотографиях. Но есть несколько проблем. Так, ресурсы сверточных нейронных сетей по преобразованию изображений в трехмерное пространство ограничены и эти сети не могут генерировать несколько деталей одновременно. Также нейросети не могут «смотреть» одновременно на все изображение целиком и фокусируются лишь на нескольких деталях.
Чтобы увеличить возможности нейросетей, исследователи смогли создать подробные трехмерные изображения, которые выглядят реалистично для человеческого глаза.
Свой подход исследователи назвали «картами глубины» (depth maps). Они предназначены, например, для создания 3D-изображений двумерных объектов и имитации движения камеры в компьютерной графике.
Метод анализирует изображение и оптимизирует процесс, просматривая содержимое изображения. Входное изображение передается нейронной сети во многих различных формах. В итоге создается множество деталей и сохраняется реалистическая геометрия.
Такие карты глубины с высоким разрешением позволят художникам и создателям контента переносить свои фотографии или произведения искусства в трехмерный мир.
Подробности о решении его авторы опубликовали на GitHub и arXiv.