研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?( 四 )


 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

我们的方法是Object context(对象上下文),它的出发点非常简单,正如前面提到,像素点本身没有标签,标签来自于这个像素点所在的物体,比如下图红色的点,这个位置很难有标签,它的标签来自于这个车。运用这个出发点,我们思考路径是:能不能拿到这个红色像素点所在的物体特征,来帮助表达这个红色的像素点。基于这个出发点,我们提出了OCR方法。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

OCR的方法涉及鸡生蛋还是蛋生鸡的问题。我们事先并不知道分割,是先估计一个粗略的分割,有一个当前的表达,比如下图,取红色像素点的特征,把它输入到模块里,得到红色像素点当前的特征和其它的若干特征(K object regions),然后把这些特征经过变换,算出它们之间的相似度,根据相似度,经过加权池化(weighted pooling),然后得到像素点的表征,根据这个表征以及以前的表征一起进行预测。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

从数据看,HRNet+OCR的方法的结果为82.5,这是发表文章时业界最好的结果。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

另外简短介绍一下自下而上姿态预测(Bottom-Up Pose Estimatiom)中的工作。
它不需要人体的检测就可以直接预测人体的关键点。
其中有个关于人体大小不一的问题,以前的方法没有确切的解决方式,我们提出“高分辨率特征金字塔”的方法。把图形输入到HRNet中做一个表征,从小的特征中分辨大的,从大的特征里面分辨小的,这个方法的结果表现也是非常好。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

最后简单总结一下,我讲的主要是HRNet,作为一个通用的网络结构,给大家展示了在视觉分割、检测、人体关键点、人脸关键点的预测等的原理,一系列的结果都比ResNet好,目前已经成为一个标准的方法。除此以外,我们借助基于具体任务的网络结构设计,比如加上OCR的方法、高分辨率特征金字塔(Higher-Resolution Feature Pyramid)的方法取得的效果都非常好。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

我们也提供了代码。
【 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?】雷锋网雷锋网雷锋网


推荐阅读