青年|对话顶会、解读最佳:CVPR 2020最佳论文对CV领域的启发( 二 )



青年|对话顶会、解读最佳:CVPR 2020最佳论文对CV领域的启发
本文插图
解决好以上三个问题 , 是本篇论文的核心工作 。 通过Photo-Geometric Autoencoding方法 , 不仅可对真人头像进行重建 , 还可对写实绘画、抽象作品、动物等进行重建 , 足以证明模型的强大性 。

青年|对话顶会、解读最佳:CVPR 2020最佳论文对CV领域的启发
本文插图
青年|对话顶会、解读最佳:CVPR 2020最佳论文对CV领域的启发
本文插图
青年|对话顶会、解读最佳:CVPR 2020最佳论文对CV领域的启发
本文插图
在黄老师看来 , 这篇论文可以获得最佳论文有几个关键的亮点因素:(1)其工作致力于3D重建;(2)可将单目2D图像转换为3D;(3)采用无监督学习的方式;(4)结合了计算机图形学 。 同时论文撰写优秀 , 论文的想法很重要 , 但也不能忽视文章的构思以及写作的切入点 。

CVPR 2020最佳学生论文解读
CVPR 2020的最佳学生论文奖由来自西蒙弗雷泽大学和谷歌研究院的三位研究者摘得 , 获奖论文是《BSP-Net: Generating Compact Meshes via Binary Space Partitioning》 , 即通过BSP(Binary Space Partitioning , 二叉空间分割)构建紧凑的3D网格 。

这篇论文介绍了多边形网格在深度学习特别是3D形状生成中的运用 。 多边形网格在数字 3D 领域中无处不在 , 但它们在深度学习革命中仅扮演了次要角色 。 学习形状生成模型的领先方法依赖于隐函数 , 并且只能在经过昂贵的等值曲面处理过程后才能生成网格 。 为了克服这些挑战 , 该研究受计算机图形学中经典空间数据结构BSP的启发 , 来促进3D学习 。
青年|对话顶会、解读最佳:CVPR 2020最佳论文对CV领域的启发
本文插图
BSP的核心思想是对空间进行递归细分以获得凸集 。 通过利用此属性 , 作者设计了BSP-Net , 该网络可通过凸分解学习表示3D形状 。 重要的是 , BSPNet无需监督 , 因为训练过程中没有凸形分解 。 该网络的训练目的是 , 为使用基于一组平面构建的 BSPtree 获得的一组凸面重构形状 。

青年|对话顶会、解读最佳:CVPR 2020最佳论文对CV领域的启发
本文插图
青年|对话顶会、解读最佳:CVPR 2020最佳论文对CV领域的启发
本文插图
通过BSPNet训练的凸面可以轻松提取以形成多边形网格 , 而无需进行等值曲面处理 。 BSP-Net的主要功能和设计方向是自动生成最少的多边形 , 合成外形尽量完美、真实的三维物体 。 对同一个二维或者三维图形物体进行重建 , 和此领域其它神经网络模型相比 , BSP-Net 所用的多边形数量显著更少 , 镶嵌效果更好 。

关于CV发展的趋势的探讨

在解读完最佳论文和最佳学生论文以后 , 关于这两篇论文对CV领域发展的启发 , 黄老师抛出了一些自己的观点 。
1)
面向的任务
CV未来的面向的任务 , 黄老师认为比较重要的有两个大的方向:3D和Video 。 计算机视觉是一门研究如何使机器“看”的科学 , 为的就是模拟人类视觉 , 解决人类视觉可以完成的事情 。
为什么说3D重要 , 是因为我们生存的世界是三维的 , 人类视觉系统就是在处理3D场景的过程中建立起来的 。 除此之外 , 目前我们已经有途径可收集到很多双目的图像(多摄像头手机拍摄的图片) , 甚至本身带有深度的数据 。 数据的丰富 , 计算能力的提升 , 为3D的发展提供了强大支撑 。
青年|对话顶会、解读最佳:CVPR 2020最佳论文对CV领域的启发
本文插图
从Video维度来说 , 世界是动态的 , 人们希望可以用动态的视频处理事情 。 依然以自动驾驶为例 , 如果其对图像一帧一帧地进行分析 , 不仅浪费严重 , 而且不够精准 。 人光看一张图像可能会错失细节 , 但连着看的话 , 能将东西认识得更为细致 。 Video一个天然的特点是连续两帧之间存在持续相关性 , 而相关性可以与当前热门的无监督/自监督学习结合起来进行研究 。


推荐阅读