研究院|微软亚洲研究院王井东：下一代视觉识别的基本网络结构是什么样的？( 四 ) 研究院|微软|下一

文章图片

我们的方法是Object context（对象上下文），它的出发点非常简单，正如前面提到，像素点本身没有标签，标签来自于这个像素点所在的物体，比如下图红色的点，这个位置很难有标签，它的标签来自于这个车。运用这个出发点，我们思考路径是：能不能拿到这个红色像素点所在的物体特征，来帮助表达这个红色的像素点。基于这个出发点，我们提出了OCR方法。

文章图片

OCR的方法涉及鸡生蛋还是蛋生鸡的问题。我们事先并不知道分割，是先估计一个粗略的分割，有一个当前的表达，比如下图，取红色像素点的特征，把它输入到模块里，得到红色像素点当前的特征和其它的若干特征（K object regions），然后把这些特征经过变换，算出它们之间的相似度，根据相似度，经过加权池化（weighted pooling），然后得到像素点的表征，根据这个表征以及以前的表征一起进行预测。

文章图片

从数据看，HRNet+OCR的方法的结果为82.5，这是发表文章时业界最好的结果。

文章图片

另外简短介绍一下自下而上姿态预测（Bottom-Up Pose Estimatiom）中的工作。
它不需要人体的检测就可以直接预测人体的关键点。
其中有个关于人体大小不一的问题，以前的方法没有确切的解决方式，我们提出“高分辨率特征金字塔”的方法。把图形输入到HRNet中做一个表征，从小的特征中分辨大的，从大的特征里面分辨小的，这个方法的结果表现也是非常好。

文章图片

最后简单总结一下，我讲的主要是HRNet，作为一个通用的网络结构，给大家展示了在视觉分割、检测、人体关键点、人脸关键点的预测等的原理，一系列的结果都比ResNet好，目前已经成为一个标准的方法。除此以外，我们借助基于具体任务的网络结构设计，比如加上OCR的方法、高分辨率特征金字塔（Higher-Resolution Feature Pyramid）的方法取得的效果都非常好。

文章图片

我们也提供了代码。
【研究院|微软亚洲研究院王井东：下一代视觉识别的基本网络结构是什么样的？】雷锋网雷锋网雷锋网

研究院|微软亚洲研究院王井东：下一代视觉识别的基本网络结构是什么样的？( 四 )

推荐阅读

『北京地铁』北京地铁：措施超常超强运行提效提质

PPT应该咋的才能插入Excel

金铃花养殖方法金铃花养殖方法视频

[蓝鲸TMT网]Micro，TCL 华星与三安半导体共同投资成立联合实验室，布局

南方观天下6000页特朗普“通俄门”调查记录被公开！部分“关键”内容引争议

中国新闻网|雪龙2号获取柱状沉积物岩心样品创造中国北极科考新记录

黄家驹|捧红孙燕姿，带火张学友，这两兄弟堪称是华语乐坛“救世主”

泡制祁门红茶,祁门红茶铁盒国礼1875

居委会大爷|高考轰动一时的“零分英雄”如今怎么样了？勇气可嘉，行为愚蠢

催乳素高吃什么药

郭威心情不悦，田静为丈夫打抱不平，真正难过的另有其人

公司|亚时财经简讯｜债券通上线三周年成交逾6万亿

【吴希泽】吴希泽《长安少年行》今日开播上演“托头杀”苏值满格

形容不忘初心的诗句?不忘初心诗词名句_1

虚无法杖|王者荣耀：日暮之流和虚无法杖界限解析，该买哪个从此不再纠结

汽车三国@不同的消费群体都能被满足吗？来看看18万预算有哪些车型值得选

雅歌小汐|傻傻分不清？其实区别，就一句话这么简单，生蚝、牡蛎、海蛎子

艾滋病■全球第二例艾滋治愈！停药两年半终身缓解概率超99%

「中国」世卫组织表示中国派医疗专家组协助其他国家抗疫有助于全球疫情防控

女性头顶脱发会恢复吗头发少适合的发型