研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?( 三 )


 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

下图展示的是在一个最新数据集上的结果,人脸关键点上有98个点,在测试数据集上,指标衡量的是预测的点与人工标注的点之间的差距,HRNet的数值比之前的都小,差距最小。除此之外还列出了6种不同复杂条件,比如人脸姿态的变化、表情的变化、光照、是否化妆、是否遮挡,图片清晰程度,这系列的情况下,我们的结果都比以前的方法好。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

下面再看我们的方法用在目标检测任务上。我们需要把物体框出来,同时要预测框中的物体种类。? ? ? ?
在最流行的Faster R-CNN框架里,我们用HRNet和ResNet的方法进行对比,为保证公平,分成4组,在每组参数量和计算量可比的情况下进行对比。
前三组在Faster R-CNN上比较,最后一个在Cascade R-CNN上比较,蓝色数值表示预测的整体好坏情况,从结果看,HRNet都远优于ResNet。除此以外,HRNet有非常好的高分辨率表征,在小物体上更有优势。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

实体分割中Instance Segmentation,需要表征出物体的轮廓,而不仅仅是一个框,我们在Mask R-CNN中和ResNet对比,我们的表现有提高,尤其在小物体上体现更加明显。当然,仅仅在Mask框架里做不能说明问题,所以我们也会在发表的研究里列举其他的方法,结果都比ResNet的表现好,这里不一一列举。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

HRNet出来时,有人怀疑是否其参数量、计算量变大,事实上,我们并没有增加参数量和计算量,或者说增加网络结构的复杂度来提升性能,比如上图中,各项参数中两者计算量差不多,但是结果是HRNet更好。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

下面我们看看分类。
在视觉领域,预训练非常重要,它需要帮网络进行初始化,通过迁移学习应用到其他领域,或者给网络结构做更好的初始化以帮助优化。
当初我们做这个网络结构的目的是为了提出一个高分辨率表征,以帮助分类以外的任务。后来发现,在同等参数量和计算量基础上,HRNet的结果比ResNet好。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

2012年以来AlexNet、GoogleNet、VGGNet、ResNet、DenseNet等是为了做分类任务,HRNet除了可以做分类任务,且性能很好,还可以做分割、检测、识别等等各种任务,面部检测、行人的检测、高空图像识别,卫星图象识别,也都有很好的效果。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

HRNet去年10月推出后,被很多比赛的参赛者使用。比如去年ICCV keypoint and densepose比赛中,几乎所有参赛选手都使用了HRNet,谷歌、商汤团队用HRNet做panoptic segmentation 和 openimage instance segmentation比赛,也取得了最好的效果。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

最近大家对网络结构搜索了解较多,既然有了搜索,为什么还要有网络结构设计?网络结构设计实际上是为搜索提供了一个空间,这也是非常重要的。今年CVPR上的一篇来自谷歌的文章,它的出发点与HRNet非常相似,认为以前的网络都是通过空间变大然后变小再恢复,这样对一些识别和检测任务非常不友好,他设计一个NAS的算法,来解决这个问题。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

网络结构除了以上所述HRNet一系列东西之外,还有很多非常重要的研究,比如怎么利用人的常识帮助网络设计,怎么设计轻量化网络,怎么与计算机硬件联系一起。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

计算机视觉中,怎么为具体的任务设计网络结构的研究也非常多。我给大家简单介绍一下我们在ECCV 2020和CVPR 2020的关于Head Architecture Design的工作,主要研究如何把人的常识加进设计中。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

这里给大家讲一下语义分割,语义分割要预测每个像素点的标签。深度学习在该领域内的应用非常广泛, FCN是一个标准方法,一个图像经过一个网络结构,最后预测像素点的标签。由于每个像素点本身没有标签,它的标签来自对周围信息的判断,所以通常会加上上下文的信息。
在介绍我们的方式之前,大家可以了解下以前的方法。
以前的方法主要是Spatial context(空间上下文)比如有PPM、ASPP,它是在像素点周围有规律地选出一些像素点,以求得当前像素点表征,进而进行标注,我们把它称为空间式。


推荐阅读