青年|对话顶会、解读最佳:CVPR 2020最佳论文对CV领域的启发
AI TIME欢迎每一位AI爱好者的加入!
CVPR 2020已落下帷幕 , 共计投稿6656篇 , 录用1470篇 , 涵盖的方向包括目标检测、目标跟踪、图像分割、人脸识别、姿态估计、三维点云、视频分析、模型加速、GAN、OCR等 。 对话顶会 , 探索最新学术进展 , 本次分享AI TIME特地邀请到CVPR 2017最佳论文得主、世界人工智能大会 Super AI Leader(SAIL)先锋奖得主、来自清华大学自动化系的黄高老师为大家解读本届CVPR“最佳论文”和“最佳学生论文”背后蕴含的亮点 , 深入剖析其核心思路、创新点 , 谈谈它们对CV领域的启发 。
CVPR 2020最佳论文解读
在严苛的录取标准下 , 《Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild》荣获CVPR 2020最佳论文称号 , 其第一作者为牛津大学视觉几何组博士生吴尚哲 。
图像是如何得来的?图像是由相机对着物体拍摄形成的 , 拍摄的过程涉及视角选择问题比如俯视还是仰视 。 本届最佳论文的亮点就在于给定一张图像 , 它可在解构拍摄视角的同时 , 将其深度(3D)、光照等分解出来 , 真实可靠地“还原”出物体原始面貌 。
本文插图
一般而言 , 对于3D重建是需要监督的 , 也就是需要各种形式的ground truth(真值、真实的有效值或者是标准的答案) , 例如多视角、深度图、轮廓、关键点等信息 。 不同于人类 , 对计算机而言深度估计极具挑战性 。
以自动驾驶为例 , 为估计场景深度 , 需在车上安装双目摄影头 , 同时还需结合激光雷达 , 用其测距得到ground truth 。 基于摄相机得来的图像数据 , 利用雷达获得的深度作为ground truth训练深度模型 。 当训练数据足够多 , 模型训练成功以后 , 才可基于双目图像估计出深度图 。
【青年|对话顶会、解读最佳:CVPR 2020最佳论文对CV领域的启发】
本文插图
区别以往依靠双目图像训练模型 , 本届最佳论文的亮点是考虑了一个具有挑战性的问题:能否只使用单目的图像估计3D对象 , 并且采用无监督的方式?其意义在于现实中使用有监督的方式成本可能是高昂的 , 且双目图像相对比较少 , 而单目图像却大量存在 。
本文插图
基于以上思路 , 作者提出了一种新的方法——Photo-Geometric Autoencoding , 可解构给定图像的视角、深度、texture等维度 , 再经过组合渲染 , 重构3D模型 。 其大致想法是构成一个闭环 , 闭环的好处是可获得监督信号 , 但问题是简单直接地实现可能最终得到退化解 。
本文插图
Question1
问题一:如何避免退化解?
答:施加对称性约束 。
对称性可来源于物体的水平翻转 , 其模型处理流程如下图所示 。
本文插图
构造对称虽然可以解决退化解问题 , 但是现实世界并不总是完美对称的 , 譬如同一物体上的光照、发型等细节 , 因此还需要进一步完善工作 。
Question2
问题二:如何处理非对称的光照?
答:对反射率施加对称性约束 。
本文插图
Question3
问题三:如何处理非对称反射率、变形等?
答:推理物体中潜在的不对称 。
推荐阅读
- 青年|发币自救失败,D站死于盗版
- 青年|汕头华侨试验区探索以人工智能、5G赋能产业转型升级
- 青年|7万硕士和21万本科生都来送外卖!高学历人才不思进取?
- 青年|西安邮电大学与安康汉滨区深度合作,研发适合毛绒玩具全产业链实用技术
- 青年|霍尼韦尔和上工申贝达成战略合作
- |重庆秀山:电商培训见实效 让更多本土青年“触电”创业
- 像素|vivo X50系列拍摄短片 亮相FIRST青年电影展
- 青年|师德何在?女老师未收到鲜花辱骂学生及家长
- 青年|微信不发朋友圈的原因已被正式确认,两点引吐槽!
- 青年|足球美团二选一,足球是唯一的,美团随时可替代