新智元|时空穿越!谷歌利用众包老照片还原儿时3D街景,浏览器即可体验( 二 )


在许多情况下 , 建筑物只有一个历史图像 , 这使得三维重建成为一个极具挑战性的问题 。 为了应对这一挑战 , 谷歌开发了一个由粗到精的识别重建算法 。
新智元|时空穿越!谷歌利用众包老照片还原儿时3D街景,浏览器即可体验
本文插图

从地图上的「Footprint」和历史图像中的立面区域开始(两者都由众包注释或自动算法检测), 一个输入建筑物的「Footprint」被向上挤压以生成其粗糙的3D 结构 。 这个挤压的高度被设置为从地图数据库中相应的元数据的地上层数 。
与此同时 , 3D 重建的pipeline不是直接将每个立面的详细3D 结构推断为一个实体 , 而是识别所有单独的组成部分(例如 , 窗口、入口、楼梯等), 并根据它们的类别分别重建它们的3D 结构 。
然后将这些细节化的三维结构与粗糙结构合并 , 得到最终的三维网格 , 并将结果存储在一个三维数据库中 , 可以进行三维渲染 。
而支持这一特性的关键技术是一系列最先进的深度学习模型:
1.更快的RCNN , 使用每个目标语义类(例如窗口、楼梯等)的外观组件注释进行训练 , 这些注释用于在历史图像中定位 bounding-box level 的实例 。
2.提出了一种语义分割模型 , 训练该模型为每个语义类提供像素级标签 。
3.训练一个专门设计的神经网络来在同一语义类中执行某些高级规则 。 这确保了立面上生成的窗户间距相等且形状相互一致 。 这也促进了不同语义类之间的一致性 , 比如楼梯 , 以确保它们被放置在合理的位置 , 并且相对于相关的输入方式具有一致的维度 。
新智元|时空穿越!谷歌利用众包老照片还原儿时3D街景,浏览器即可体验
本文插图

图:3D重建的曼哈顿街景
通过 「r?」平台 , 谷歌开发了便于众包的工具来解决重建虚拟城市的时候历史数据不足的主要问题 。
这种3D街景的体验仍在进一步完善中 , 未来会持续更新 。 谷歌希望「r?」作为一个活跃的爱好者和普通用户社区的纽带 , 不仅利用历史数据集和开源代码 , 而且积极地为这两者做出贡献 。
参考链接:
【新智元|时空穿越!谷歌利用众包老照片还原儿时3D街景,浏览器即可体验】https://ai.googleblog.com/2020/10/recreating-historical-streetscapes.html


推荐阅读