|不限机型,手机端实时玩转3D、混合现实,快手Y-tech有黑科技


机器之心报道
机器之心编辑部
深度是实现 3D 场景理解的重要信息 , 快手 Y-tech 利用自研的单目深度估计技术获得了高质量的深度信息 , 并将模型部署到移动端 , 结合 Y-tech 已有的多项技术研发了 3DPhoto、混合现实等多种新玩法 。 这些黑科技玩法不限机型 , 可让用户在手机上无门槛的实时体验 , 给用户带来全新的视觉体验和交互方式的同时 , 可帮助用户更好的进行创作 。
这项研究主要探究了如何更好的利用三维空间的结构性信息提升单目深度估计精度 , 此外还针对复杂场景构建了一个新的深度数据集 HC Depth , 包含六种挑战性场景 , 有针对性地提升模型的精度和泛化性 。 该论文已被 ECCV 2020 收录 , 论文代码和模型即将在 GitHub 上开源 , 作者也将在 8 月 23-28 日的 ECCV 大会线上展示他们的工作 。
|不限机型,手机端实时玩转3D、混合现实,快手Y-tech有黑科技
本文插图

论文链接:https://arxiv.org/abs/2007.11256
代码链接:https://github.com/ansj11/SANet
单目深度估计的挑战
从 2D 图像恢复 3D 信息是计算机视觉的一个基础性问题 , 可以应用在视觉定位、场景理解和增强现实等领域 。 在无法通过深度传感器或者多视角获得有效的深度测量时 , 单目深度估计算法尤为重要 。 传统方法通常使用先验信息恢复图像的深度信息 , 例如纹理线索 , 物体尺寸和位置 , 遮挡和透视关系等 。 近年来深层卷积神经网络通过对大规模数据集的学习 , 能够隐式捕获这些先验信息 , 取得了重大的突破 。
然而 , 自然场景的深度信息估计存在很多挑战 , 如光照不足或过曝 , 包含移动人像和天空区域 , 虚假边缘 , 相机的抖动和倾斜等(见图 1) 。 现有算法把单目深度估计转化为像素深度值的分类或回归问题 , 对于全局像素之间的结构性缺乏考量 , 导致遇到很多问题 , 如空间布局错误 , 边缘不清晰 , 平面估计错误等 。 针对这一缺陷 , 这篇论文从深度信息的结构性角度出发 , 从网络结构、损失函数、训练方式、数据扩充等方面入手 , 提高深度估计的质量 。
|不限机型,手机端实时玩转3D、混合现实,快手Y-tech有黑科技
本文插图

图 1:现有深度估计方法的难例场景
网络模型结构
|不限机型,手机端实时玩转3D、混合现实,快手Y-tech有黑科技
本文插图

图 2:网络模型结构
这篇论文基于编码 - 解码结构的 U 形网络进行设计 , 为多级特征图添加了从编码器到解码器的 skip 连接层 。 编码器主要提取语义特征 , 解码器则更加关注空间结构信息 。 包含全局上下文信息的 GCB 模块在编码阶段应用于每个残差模块 , 以重新校准通道特征 。 校准的特征与高级特征组合 , 作为空间注意力机制 SAB 模块的输入 。
其中 SAB 是这篇论文提出的一种新颖的空间注意力机制模块 。 从空间角度来看 , GCB 模块用于全局强调语义信息 , 而空间注意模块则侧重于图像局部区域模块的权重调节 。
GCB 和 SAB 注意力模块可以构建三维注意机制以指导特征选择 。 如图 3 所示 , 其中低分辨率 SAB 特征图用于指导全局空间布局信息的选择 , 而高分辨率 SAB 特征图用于强调细节信息 。 经过选择后的多尺度特征图融合后经过上采样层输出最终深度图 。
|不限机型,手机端实时玩转3D、混合现实,快手Y-tech有黑科技
本文插图

图 3:空间注意力机制模块的可视化
Spatial attention block
论文的 SAB 模块专为单目深度估计而设计 , 旨在优化像素级回归任务中的几何空间布局 。 SAB 模块通过 1×1 卷积层对串联特征进行挤压操作 , 以在其通道尺寸上聚合空间上下文 。 然后 , 激活局部特征以获取注意力特征图 , 该图对所有空间位置上的像素深度信息进行编码 。 低层特征与该特征图进行逐像素相乘 , 以进行后续融合 , 获取高层传递的空间上下文信息 。 因此 , SAB 能生成具有空间信息的权重图 , 以重新校准 GCB 的语义特征 。


推荐阅读