研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?( 二 )


HRNet与以前的网络结构不同,它不是从分类任务出发,它可以解决更广泛的计算机视觉问题。
我们的目的是学习一个空间精度强的表征,我们设计的HRNet不是沿用以前的分类结构,也不是从低分辨率恢复到高分辨率,而是从零开始,自始至终都维持高分辨率,体现了空间分辨率较强的表征。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

这个结构是如何设计?作为对比,我们先分析分类的网络结构原理。
在下图的例子里,有高分辨率的卷积(箭头代表卷积等的计算操作,这些框是表征),有中等分辨率的卷积,最终得到低分辨率的表征。分类网络中,这三路是串联的,现在我们把这三路并联,让每一路前新增加一路,最终拿到一个高分辨率的表征。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

? ? 这样大家会有疑问,三路是独立的,除了新增加的相关联之外,其它的都不产生关系,这样会损失什么?在低分辨率方面,它可以学习到很好的语义信息,在高分辨率里,它的空间精度非常强,这三路之间的信息没有形成互补。
我们采用的方法,是让三路不停地交互,使得高分辨率可以获得低分辨率语义信息较强的表征,低分辨率可以获得高分辨率的空间精度较强的表征,不停地融合,最终取得更强的高分辨率表征。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

简单来讲,以前的高分辨率是通过升高、降低再升高获得,我们通过将不同分辨率的卷积由串联变成并联,自始至终保持高分辨率,并且还加入不同分辨率之间的交互,使得高分辨率表征和低分辨率表征的互动变强,获得对方的优势特征,最终获得非常强的高分辨率表征。
以上是设计方法,下面看看我们最终设计的网络例子。
HRNet实际上固定了它的深度,把这个结构分成若干个模块,每个模块是由若干个可重复的组织设计出来的。比如第三个部分,它由4个模块形成。
如何变化这个网络结构适应不同的需求?
我们采用变化宽度的方式。与ResNet比,这个结构中的宽度小很多,比如之前ResNet的宽度是256,HRNet的宽度是32-48。正因为这样的设计,我们最终得到的参数和计算复杂度与ResNet的结果是可比的。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

下面了解下HRNet在不同任务中的实验性能。
人体姿态估计中,每个图片中人数很多,我们的任务是要找出每个人的关键点,并区分不同人的关键点。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

做法有两种,一种方法自上而下(Top-Down)的方法,首先使用一种检测器,把人检测出来,然后每个人单独做关键点的检测。另外一种方法自下而上(Bottom-Up),直接检测关键点,然后进行一些聚类的操作,把不同人再分开来。
我们先展看看自上而下方法的结果,下图左边是基于ResNet的方法,右边的是HRNet的方法,比较的指标是关键点位置寻找准确与否。我们的结果是74.9%,结果要好于ResNet,同时参数量上,ResNet是68.5,我们是28.5。通过进一步加宽HRNet网络结构后,可以进一步提高结果。??
这个方法自从去年在CVPR发表以来,已经成为在人体姿态构建里一个标准的网络,一些文章或者比赛都会采用HRNet架构。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

在分割任务中。采用街景分割的例子,街景分割在自动驾驶、无人驾驶、辅助驾驶中都非常重要。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

以一个非常重要的数据集Cityscapes validation比较,其中,mIoU是衡量分割好坏的一个非常重要的指标,从下图看到,HRNet-W40的结果优于其他方法,而体现计算量的GFLOPS指标中,HRNet是三位数,其他方法大多为四位数,HRNet计算量更小。在参数量、计算量上,HRNet的过程和最终结果都具有优势,将网络结构规模变大后,优势进一步提高。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

Cityscapes Test数据集的结果看,HRNet的表现也是最好的。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

在今年4月份之前,我们在Cityscapes分割的榜单中排名第一。5月份,英伟达的一个新方法排名第一,了解过他们的方法后,发现它最终的结果是基于HRNet,再加上它的模块,从这个角度看,说明HRNet的影响力在逐步变大。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

人脸的关键点检测应用非常多,娱乐、短视频中的美颜功能,都需要人脸关键点的检测,定位出眼睛、鼻子等的位置。??


推荐阅读