青亭网|谷歌新研究:用2D网图就能合成3D地图模型

近年来 , 虚实结合的地图概念逐渐兴起 , 不管是AR地图还是VR地图 , 甚至Metaverse、Cyberverse , 仿佛都预示着未来1:1还原现实的虚拟世界终将来到 。
但这些大规模的虚拟世界/地图 , 需要依靠大量数据支撑 。 目前 , 覆盖面最广的VR地图之一非谷歌街景莫属 , 其通过出借全景相机等众包方式 , 收集了来自世界各地的360°地图影像 。
青亭网|谷歌新研究:用2D网图就能合成3D地图模型
文章图片
而对于现在的AR地图领域 , 此前被Facebook收购的AR云公司Scape曾花费大约一年时间去收集环境数据 , 通过移动设备摄像头和计算机视觉算法来识别地理位置 。 但这还远远不够 , 而Niantic在收购3D地图厂商6D.ai后 , 在前不久才通过《Ingress》和《精灵宝可梦Go》LBSAR游戏 , 获取几十万个基于真实地理位置的3D数据 。
青亭网|谷歌新研究:用2D网图就能合成3D地图模型
文章图片
总之 , 大规模的Metaverse或AR虚拟世界还未成型 , 很期待看到下一个推出街景地图规模的AR地图会是哪家公司 。 当然 , 或许未来的AR地图市场还将由谷歌主导 , 因为从谷歌最新的研究成果来看 , 他们似乎已经掌握快速从众包数据生成3D相片的方案 , 并计划将它应用于AR/VR中 。
青亭网|谷歌新研究:用2D网图就能合成3D地图模型
文章图片
据青亭网了解 , 通常根据真实场景重建精准逼真的3D地图模型并不容易 , 谷歌科研人员为了简化这一流程 , 训练了一个基于NeRF(神经辐射场)的学习算法 , 可通过同一场景的几张网络照片合成多个视角 , 实现3D效果 。
简单来讲 , NeRF的原理是通过分析光线终止的位置 , 来从2D图像提取3D深度数据 。 这种技术可为真实场景重建出外观和纹理足够可信的3D模型 。
青亭网|谷歌新研究:用2D网图就能合成3D地图模型
文章图片
谷歌科研人员表示:通常 , NeRF算法适用于处理可控环境中捕捉的静态图像 , 但并不适应光线、遮挡等不可控的因素 。 这是因为 , NeRF将环境的几何、材质和光线视为不变 , 而整个环境的密度和光亮则为恒定 。 对于NeRF来讲 , 在同一地点拍摄的两张照片需要具备接近的像素密度 , 这对数据的要求更高 , 毕竟即使是同一时间拍地点拍摄的两张照片也可能出现曝光、校色、色阶等方面的差异(由于摄像头参数和后期处理的不同) 。
由于这种技术局限 , NeRF难以直接用于生成大规模3D户外场景 , 因为这将需要处理数小时、数日甚至数年时间拍摄的图片 , 其中包含的行人、汽车等变量更难控制 。
而本篇中描述的学习算法(NeRF-W)是对NeRF的一个延伸 , 可解决上述问题 , 并从网络图片生成准确度高的多视角3D场景图 。 谷歌的NeRF-W系统与NeRF相比有多方面提升 , 特点是视觉效果逼真、空间场景连贯 , 而且只使用普通网络图片即可 。
青亭网|谷歌新研究:用2D网图就能合成3D地图模型
文章图片
原理方面 , NeRF-W先是处理网络图片并生成多个角度 , 接着进一步分析并识别场景结构 , 然后分离出图像曝光、场景光线、后期、天气状况、每一帧差异(同样场景帧画面变化)等图像和环境差异信息(光线、阴影变化) , 并后期处理处低维度潜在空间 。
根据GLO(GenerativeLatentOptimization)框架 , 为每张照片优化外观嵌入元素并在不影响3D结构的情况下加入插值 。 最后 , NeRF-W通过识别图像和环境在不同照片中的相似之处 , 为结构几何和纹理等静态元素生成能具有3D体积感的过渡 , 并将过渡元素与分解的场景融合 。
青亭网|谷歌新研究:用2D网图就能合成3D地图模型


推荐阅读