检测|百度AI获ECCV 2020 挑战赛“双冠王”目标检测技术领先国际

_原题为 百度AI获ECCV 2020 挑战赛“双冠王”目标检测技术领先国际
2020年8月23-28日 , 原定于在英国格拉斯哥举行的ECCV 2020受疫情影响 , 改为虚拟形式在线上进行 , 但这并未影响参加者的热情 , 依然输出了相当多计算机视觉领域优质内容 。 百度作为计算机视觉领域的“佼佼者” , 在ECCV 2020上也有不菲的成绩 , 先有10篇论文中选被收录 , 如今又“连中两元”拿下两个Workshop冠军 , 分别是Tiny Object Detection和目标检测领域最权威的比赛COCO 。
在目标检测领域 , 百度可谓是获奖“常客” 。 去年 , 在目前规模最大的目标检测公开数据集Open Images Dataset V5(OIDV5)中 , 百度凭借领先的AI技术 , 摘得桂冠;在CVPR 2019 Workshop中 , 百度获得"Objects365物体检测"国际竞赛 Full Track冠军 。
ECCV是世界计算机视觉顶级会议之一 , 每两年举办一场 , 与CVPR和ICCV并称计算机视觉领域三大会议 。 在本届的Workshop中 , COCO Object Detection备受关注 , 它是目前学术界最权威的检测和实例分割比赛 。 首届Tiny Object Detection是为了帮助更多新兴领域提出新的基准和微小目标检测方式 , 解决行业痛点、满足应用需求 。
一、 COCO Object Detection
COCO数据集中囊括11万训练数据、80个类别 , 百度团队基于PaddleDetection , 在此次目标检测和实例分割任务中通过3种方法进行优化:强大的目标检测效果;加强版FPN模块和加强版header;Twopipeline策略 。
检测|百度AI获ECCV 2020 挑战赛“双冠王”目标检测技术领先国际
文章图片

1、强大的检测分支
在比赛中 , 百度用效果优良的cascade mask rcnn和htc网络作为基础网络 , 在这些基础网络上 , 加入更多改进策略来提升检测部分的效果 。
首先 , 百度通过飞桨框架下的ImageNet蒸馏模型作为预训练模型对Objects365数据集的检测模型进行训练 , 训练好的Objects365检测模型可以作为预训练模型 , 并用来训练相同网络结构的COCO模型 , 这样可以在检测任务上获得显著提升的效果 。 对于具体的网络结构而言 , 百度训练的Res2net200模型、CBResnet200、SE154模型作为检测模型的backbone , 其中Res2net200的检测模型在单尺度下mAP可以达到56.2% 。
其次 , 百度采用加强版的FPN模块提升网络效果:使用Acfpn网络增强检测能力 , 该模型可以解决高分辨率输入上特征图分辨率与感受域之间的矛盾 , Acfpn包括两个模块 , 加入Acfpn后 , box mAP增加了0.8%;除了Acfpn , 还使用DetectoRS中的RFP网络 , RFP网络将反馈连接添加到自底向上的主干层中 , 它在htc-r50上使box mAP提升4.2% 。
除了加强版的FPN模块 , 百度还用了non-local算子和数据增强策略 。 non-local算子用于描述距离像素之间的关联 , 输出特征图的每个元素都会受到所有输入特征图的影响;同时 , 百度还根据COCO数据集的特性 , 使用随机擦除的数据增强策略——在图像中随机选取一个矩形区域 , 并在训练中对其像素进行随机擦除 , 降低过拟合风险 , 并提高模型对于遮挡目标的检测鲁棒性 。
2、分割模块
为了提高模型最终的mask准确率 , 百度使用增强版的header模块 , 在此模块中 , 使用htc的header作为基础header 。 在此基础上 , 百度用增强的双网络box header代替原有的box header , 除此之外 , mask header分支整合了rescoring信息 , 实际坐标信息和边缘信息 , 组合成增强版的header 。
检测|百度AI获ECCV 2020 挑战赛“双冠王”目标检测技术领先国际
文章图片

原始的htc的box header只有两个全卷积层用于目标框的回归和分类 , 而增强版的双分支boxheader使用两个分支 , 分别预测框的坐标和类别 , 为了提高效率 , 百度没有用过重的head结构 , 只使用一个bottleblock模块代替第一个卷积层 , 其他的卷积层不变;而对于分割rescoring分支 , 为了避免计算量过大 , 百度只在最后一个阶段加入分割rescoring分支 , 并用rescoring分支的结果取代原有的box分值赋给mask;而边缘分割分支 , 是在mask header里融入了边缘信息 , 以提升mask mAP 。
检测|百度AI获ECCV 2020 挑战赛“双冠王”目标检测技术领先国际
文章图片

3、 two pipeline
最后 , 为了可以效利用多个检测网络的结果 , 百度将检测网络结果当作候选框输入到分割网络的head前 , 得到实例分割网络的最终mask结果 , 通过这种two pipeline策略 , mask mAP可以增长3.1% 。 基于上述优化方法 , 百度团队在COCOobject detection track中一举夺魁 。
检测|百度AI获ECCV 2020 挑战赛“双冠王”目标检测技术领先国际
文章图片

此次竞赛中 , 百度团队使用了最新发布的“PP-YOLO” , 它是YOLOv3的“华丽变身” 。 PP-YOLO的高精度和高推理速度 , 即使对检测视频中非常快速运动的目标也可以达到很好的效果 。 经过一系列优化方法 , 飞桨研发人员已将训练迭代次数和学习率衰减迭代次数调整至和原始YOLOv3模型的迭代次数一致 , 也就是训练迭代次数从25万次增加到50万次 , 对应学习率衰减的迭代次数调整至40万和45万 , 使PP-YOLO模型在COCO minival数据集精度达到45.3% , 单卡V100上batch size=1时的预测速度为72.9 FPS 。 如果使用COCO test_dev2017数据集测试 , 精度将达到45.9% 。


推荐阅读