「图像处理」李沐团队提出最强ResNet改进版，多项任务达到SOTA

十三发自凹非寺量子位报道 | 公众号 QbitAI
在图像处理领域中，近年来的新模型可谓是层出不穷。
但在大多数的下游任务中，例如目标检测、语义分割，依旧还是用ResNet或其变体作为骨干网络。
而最近，亚马逊李沐团队便提出了堪称“ResNet最强改进版”的网络——ResNeSt 。
从名字中不难看出，是引入了模块化的分散注意力模块，可以让注意力跨特征图(feature-map)组。

本文插图

那么， ResNeSt到底有多强？

ResNeSt-50在224×224的ImageNet上，实现了81.13%的TOP-1精度，比之前最好的ResNet变体精度高出1%以上。
简单地用ResNeSt-50替换ResNet-50骨干，可以让MS-COCO上的FasterRCNNNN的mAP ，从39.25%提高到42.33%；ADE20K上的DeeplabV3的mIoU ，从42.1%提高到45.1% 。

这些改进对下游任务有很大的帮助，包括目标检测、实例分割和语义分割。
就连李沐也发朋友圈，呼吁小伙伴们“一键升级” 。

「图像处理」李沐团队提出最强ResNet改进版，多项任务达到SOTA | 已开源

本文插图

更让人惊喜的是，这项工作已开源！
最强ResNet变体：多项任务取得“大满贯” 现在，我们具体来看下ResNeSt在具体任务中的表现。
图像分类第一个实验研究了ResNeSt在ImageNet 2012数据集上的图像分类性能。
通过将ResNeSt和其他50层和101层配置、类似复杂度的ResNet变体作比较， TOP-1精度达到了最高，如下表所示。

本文插图

还与不同大小的CNN模型做了比较。
采用了256×256的ResNeSt-200, 和320×320的ResNeSt-269 。对于输入大小大于256的模型，采用双三次上采样策略(Bicubic upsampling strategy) 。
从下表不难看出，与基于NAS发现的模型相比， ResNeSt具有更好的准确性和延迟权衡。

本文插图

目标检测接下来，是在目标检测上的性能。
所有的模型，都是在COCO-2017训练集上训练的118k图像，并在COCO-2017验证集上用5k图像进行评估。
使用FPN、同步批处理归一化(synchronized batch normalization)和图像尺度增强，来训练所有模型。
为了方便比较，简单地用ResNeSt替换了vanilla ResNet骨干，同时使用默认设置的超参数。

本文插图

与使用标准ResNet的基线相比， ResNeSt的骨干在Faster-RCNN和CascadeRCNN上，都能将平均精度提高3%左右。
这就说明ResNeSt的骨干网络具有良好的泛化能力，并且可以很容易地迁移到下游任务中。
值得注意的是， ResNeSt50在Faster-RCNN和Cascade-RCNN检测模型上都优于ResNet101 ，而且使用的参数明显较少。
实例分割在实例分割任务中，以ResNeSt-50和ResNeSt-101为骨干，对Mask-RCNN和Cascade-Mask-RCNN模型进行评估。
实验结果如下表所示，对于Mask-RCNNN来说， ResNeSt50的box/mask性能增益分别为2.85%/2.09% ，而ResNeSt101则表现出了更好的提升，达到了4.03%/3.14% 。
对于Cascade-Mask-RCNN ，切换到ResNeSt50或ResNeSt101所产生的增益分别为3.13%/2.36%或3.51%/3.04% 。