青年|对话顶会、解读最佳:CVPR 2020最佳论文对CV领域的启发


AI TIME欢迎每一位AI爱好者的加入!
CVPR 2020已落下帷幕 , 共计投稿6656篇 , 录用1470篇 , 涵盖的方向包括目标检测、目标跟踪、图像分割、人脸识别、姿态估计、三维点云、视频分析、模型加速、GAN、OCR等 。 对话顶会 , 探索最新学术进展 , 本次分享AI TIME特地邀请到CVPR 2017最佳论文得主、世界人工智能大会 Super AI Leader(SAIL)先锋奖得主、来自清华大学自动化系的黄高老师为大家解读本届CVPR“最佳论文”和“最佳学生论文”背后蕴含的亮点 , 深入剖析其核心思路、创新点 , 谈谈它们对CV领域的启发 。
CVPR 2020最佳论文解读
在严苛的录取标准下 , 《Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild》荣获CVPR 2020最佳论文称号 , 其第一作者为牛津大学视觉几何组博士生吴尚哲 。
图像是如何得来的?图像是由相机对着物体拍摄形成的 , 拍摄的过程涉及视角选择问题比如俯视还是仰视 。 本届最佳论文的亮点就在于给定一张图像 , 它可在解构拍摄视角的同时 , 将其深度(3D)、光照等分解出来 , 真实可靠地“还原”出物体原始面貌 。

青年|对话顶会、解读最佳:CVPR 2020最佳论文对CV领域的启发
本文插图
一般而言 , 对于3D重建是需要监督的 , 也就是需要各种形式的ground truth(真值、真实的有效值或者是标准的答案) , 例如多视角、深度图、轮廓、关键点等信息 。 不同于人类 , 对计算机而言深度估计极具挑战性 。

以自动驾驶为例 , 为估计场景深度 , 需在车上安装双目摄影头 , 同时还需结合激光雷达 , 用其测距得到ground truth 。 基于摄相机得来的图像数据 , 利用雷达获得的深度作为ground truth训练深度模型 。 当训练数据足够多 , 模型训练成功以后 , 才可基于双目图像估计出深度图 。
【青年|对话顶会、解读最佳:CVPR 2020最佳论文对CV领域的启发】
青年|对话顶会、解读最佳:CVPR 2020最佳论文对CV领域的启发
本文插图
区别以往依靠双目图像训练模型 , 本届最佳论文的亮点是考虑了一个具有挑战性的问题:能否只使用单目的图像估计3D对象 , 并且采用无监督的方式?其意义在于现实中使用有监督的方式成本可能是高昂的 , 且双目图像相对比较少 , 而单目图像却大量存在 。


青年|对话顶会、解读最佳:CVPR 2020最佳论文对CV领域的启发
本文插图
基于以上思路 , 作者提出了一种新的方法——Photo-Geometric Autoencoding , 可解构给定图像的视角、深度、texture等维度 , 再经过组合渲染 , 重构3D模型 。 其大致想法是构成一个闭环 , 闭环的好处是可获得监督信号 , 但问题是简单直接地实现可能最终得到退化解 。

青年|对话顶会、解读最佳:CVPR 2020最佳论文对CV领域的启发
本文插图
Question1
问题一:如何避免退化解?
答:施加对称性约束 。
对称性可来源于物体的水平翻转 , 其模型处理流程如下图所示 。
青年|对话顶会、解读最佳:CVPR 2020最佳论文对CV领域的启发
本文插图
构造对称虽然可以解决退化解问题 , 但是现实世界并不总是完美对称的 , 譬如同一物体上的光照、发型等细节 , 因此还需要进一步完善工作 。

Question2
问题二:如何处理非对称的光照?
答:对反射率施加对称性约束 。
青年|对话顶会、解读最佳:CVPR 2020最佳论文对CV领域的启发
本文插图
Question3

问题三:如何处理非对称反射率、变形等?
答:推理物体中潜在的不对称 。


推荐阅读