建造自己的「天空之城」,这项研究可以虚空造物、偷天换日( 二 )


本文插图
天空抠图网络用来检测视频帧中的天空区域 。 与以往将此过程定义为二元像素级分类(前景 vs 天空)问题的方法不同 , 该研究设计了一种基于深度学习的由粗到细的预测 pipeline , 以产生更精确的检测结果和更悦目的混合效果 。
运动估计算法用于恢复天空的移动 。 虚拟摄像机捕获的天空视频需要在真实摄像机的运动下进行渲染和同步 。 该研究假设天空以及天空中的物体(例如 , 太阳、云等)位于无穷远 , 并用 Affine 矩阵建模它们相对于前景的运动 。
skybox 模块用于天空图像的扭曲和混合 。 给定前景帧、预测的天空抠图、运动参数 , skybox 将基于运动扭曲天空背景并将其与前景混合 。 skybox 还应用了重光照和重新着色技术 , 使混合结果在颜色和动态范围方面更加逼真 。
实现细节
该方法使用 ResNet-50 作为天空抠图网络的编码器(全连接层被移除) 。 解码器部分包括 5 个卷积上采样层(coordinate 卷积 + relu + 双线性上采样)和一个像素级预测层(coordinate + sigmoid) 。 该研究方法遵循 UNet [30] 的配置 , 并在具有相同空间大小的编码器层与解码器层之间添加残差连接 。 表 1 显示了该网络的详细配置:

建造自己的「天空之城」,这项研究可以虚空造物、偷天换日
本文插图
实验
天空增强和天气模拟
建造自己的「天空之城」,这项研究可以虚空造物、偷天换日
本文插图
除了前文及上图展示的处理效果以外 , 该研究还展示了该方法与 CycleGAN 方法之间的对比结果 , 具体如下图 5 所示:

建造自己的「天空之城」,这项研究可以虚空造物、偷天换日
本文插图
图 5:该研究提出方法与 CycleGAN 的定性对比结果 。
下表 2 给出了在不同天气转换场景下这两种方法的图像保真度定量对比结果 。 该研究提出的方法在两个定量度量指标和视觉质量上均显著优于 CycleGAN 。
建造自己的「天空之城」,这项研究可以虚空造物、偷天换日
本文插图
速度
下表 3 展示了该研究提出方法的速度:
建造自己的「天空之城」,这项研究可以虚空造物、偷天换日
本文插图
研究人员使用配备一块英伟达 Titan XP GPU 和英特尔 I7-9700k CPU 的台式机进行推断速度测试 。 对于不同输出分辨率而言 , 处理速度有所不同:该方法在输出分辨率为 640×320 时实现了实时处理速度 (24 fps) , 在输出分辨率为 854×480 时实现了接近实时处理的速度 (15 fps) , 不过仍有很大提升空间 。
根据统计 , 天空抠图阶段需要花费相当多的时间 , 因此用更高效的 CNN 主干网络(如 MobileNet 或 EfficientNet)替换 ResNet-50 , 可以提高处理速度 。
局限性
【建造自己的「天空之城」,这项研究可以虚空造物、偷天换日】该方法也存在一些局限性 。
首先 , 天空抠图网络仅基于白天的图像训练 , 因此该方法可能无法检测夜晚视频中的天空区域 。
其次 , 当视频特定时间段没有天空像素时 , 或者天空中没有纹理时 , 该方法无法精确建模天空背景的运动 。
下图 8 展示了两个失败案例:

建造自己的「天空之城」,这项研究可以虚空造物、偷天换日
本文插图
作者简介
建造自己的「天空之城」,这项研究可以虚空造物、偷天换日
本文插图
本文作者 Zhengxia Zou 现为密歇根大学安娜堡分校的博士后研究员 。 他先后于 2013 年和 2018 年取得北京航空航天大学的学士和博士学位 。 其研究兴趣包括计算机视觉及其在遥感、自动驾驶汽车和电子游戏等领域的相关应用 。


推荐阅读