研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?( 四 )
文章图片
我们的方法是Object context(对象上下文),它的出发点非常简单,正如前面提到,像素点本身没有标签,标签来自于这个像素点所在的物体,比如下图红色的点,这个位置很难有标签,它的标签来自于这个车。运用这个出发点,我们思考路径是:能不能拿到这个红色像素点所在的物体特征,来帮助表达这个红色的像素点。基于这个出发点,我们提出了OCR方法。
文章图片
OCR的方法涉及鸡生蛋还是蛋生鸡的问题。我们事先并不知道分割,是先估计一个粗略的分割,有一个当前的表达,比如下图,取红色像素点的特征,把它输入到模块里,得到红色像素点当前的特征和其它的若干特征(K object regions),然后把这些特征经过变换,算出它们之间的相似度,根据相似度,经过加权池化(weighted pooling),然后得到像素点的表征,根据这个表征以及以前的表征一起进行预测。
文章图片
从数据看,HRNet+OCR的方法的结果为82.5,这是发表文章时业界最好的结果。
文章图片
另外简短介绍一下自下而上姿态预测(Bottom-Up Pose Estimatiom)中的工作。
它不需要人体的检测就可以直接预测人体的关键点。
其中有个关于人体大小不一的问题,以前的方法没有确切的解决方式,我们提出“高分辨率特征金字塔”的方法。把图形输入到HRNet中做一个表征,从小的特征中分辨大的,从大的特征里面分辨小的,这个方法的结果表现也是非常好。
文章图片
最后简单总结一下,我讲的主要是HRNet,作为一个通用的网络结构,给大家展示了在视觉分割、检测、人体关键点、人脸关键点的预测等的原理,一系列的结果都比ResNet好,目前已经成为一个标准的方法。除此以外,我们借助基于具体任务的网络结构设计,比如加上OCR的方法、高分辨率特征金字塔(Higher-Resolution Feature Pyramid)的方法取得的效果都非常好。
文章图片
我们也提供了代码。
【 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?】雷锋网雷锋网雷锋网
推荐阅读
- 美媒:中国没有战机能拦U-2,但有办法将其击落
- 明星八卦|亚洲最帅面孔评选,不见胡歌和朱一龙身影,多个男星已入围
- Windows|Windows 10 21H1新功能预览介绍
- Windows|微软正在准备修复一个影响SSD寿命的Windows 10错误
- Microsoft|微软发布Edge 85稳定版 但触笔用户可能对Edge 86更感兴趣
- One|ESL One科隆亚洲区:再下一城!TYLOO 2-1击败VG挺进总决赛
- Samsung|三星正在用整合微软OneDrive的方式来取代部分移动云服务
- Windows|微软重新发布KB4023057补丁 再次推动Windows 10更新
- 转型|索信达携手亚洲银行家 共探银行业数字化转型新常态
- 选择|经济下行时,你还会选择借钱吗?