|不限机型,手机端实时玩转3D、混合现实,快手Y-tech有黑科技( 三 )


|不限机型,手机端实时玩转3D、混合现实,快手Y-tech有黑科技
本文插图

|不限机型,手机端实时玩转3D、混合现实,快手Y-tech有黑科技
本文插图

图 5:HC depth 数据集示例
多数据集训练策略
为了训练通用的单目深度估计模型 , 这篇论文在多个不同的数据集上进行训练 。 在非凸函数的全局优化中 , 深度数据在各种场景中的分布不同 , 导致训练时难以收敛 。 这篇论文受到课程学习的启发 , 提出了一种增量式数据集混合策略 , 以加速网络训练收敛并提高训练模型的泛化性能 。 首先 , 在具有相似分布的数据集上训练模型 , 直到收敛为止 。 然后逐一添加更难学习的不同深度分布的数据集 , 并为每个 batch 构建一个新的采样器 , 以确保从这些不平衡的数据集中进行均衡的采样 。 训练收敛过程如图 6 所示:
|不限机型,手机端实时玩转3D、混合现实,快手Y-tech有黑科技
本文插图

图 6:多数据集训练策略的 BerHu loss 收敛曲线
结果对比
作者对比了当前最优的深度估计算法 , 在 NYUv2 开源数据集上的指标对比结果和视觉对比结果见下图 , 可以看出该论文方法在深度图整体及细节上均好于 SOTA 。
|不限机型,手机端实时玩转3D、混合现实,快手Y-tech有黑科技
本文插图

图 7:在 NYUv2 上的量化实验对比
|不限机型,手机端实时玩转3D、混合现实,快手Y-tech有黑科技
本文插图

图 8:在 NYUv2 数据集上的可视化实验对比
|不限机型,手机端实时玩转3D、混合现实,快手Y-tech有黑科技
本文插图

图 9:在 NYUv2 数据集上的点云可视化实验对比
为了进一步验证模型的泛化性能 , 作者在 TUM 数据集上进行了方法对比测试如下图 , 在未见过的场景下 , 该论文方法预测效果也优于 SOTA 。
|不限机型,手机端实时玩转3D、混合现实,快手Y-tech有黑科技
本文插图

图 10:在 TUM 数据集上的泛化性测试实验
|不限机型,手机端实时玩转3D、混合现实,快手Y-tech有黑科技
本文插图

图 11:在 TUM 数据集上的可视化测试实验
最后 , 为了说明该论文方法在各种具有挑战性场景下的有效性 , 作者在自采的 HC Depth 上进行了对比测试如下图 , 可以看出该论文的方法远好于 SOTA 。
|不限机型,手机端实时玩转3D、混合现实,快手Y-tech有黑科技
本文插图

图 12:在 HC Depth 数据集上的 hard case 性能测试实验
|不限机型,手机端实时玩转3D、混合现实,快手Y-tech有黑科技
本文插图

图 13:在 HC Depth 数据集上的可视化测试实验
应用
基于深度信息业界已经有了很多相关的落地应用 , 快手利用深度信息也支持了很多应用的上线落地 , 如混合现实、3DPhoto、景深虚化等 。
混合现实
传统的增强现实 (AR) 技术一般只有空间定位功能 , 缺少环境感知、深度测量、实时光照等高级能力 , 虚拟和现实难以真正的融合和交互 。 快手利用单目深度估计技术实时感知和理解场景的几何信息 , 并将其与传统的 SLAM/VIO 技术相结合 , 同时完成了空间计算和场景重建 , 结合自研的 3D 渲染引擎 , 打造了移动端的 MR 混合现实系统 , 给用户带来更逼真、沉浸、新奇的虚实交互新体验 。 该技术方向大大减少了对特殊硬件 (如深度传感器) 的依赖 , 可以只利用现有手机硬件实现 , 技术的普适性可帮助几乎所有用户无门槛使用 MR 技术 。 用户通过快手的 MR 混合现实系统可以实时体验虚实遮挡、体表运动、虚拟打光、物理碰撞等虚实交互特性 。 快手最近半年已上线了 “新春灯牌”、“辞旧迎新”、“蹦迪滤镜” 等多款 MR 魔表 , 是国内首家上线该技术的公司 , 激发了用户的创造力 , 提升了用户拍摄生产欲望 。


推荐阅读