告别CNN？一张图等于16x16个字，计算机视觉也用上Transformer了( 三 ) 编译|凯隐出品|AI科技大本营（ID:rgzna

数据集主要使用ILSVRC-2012 ， ImageNet-21K ，以及JFT数据集。
4.2 与SOTA模型的性能对比
首先是和ResNet以及efficientNet的对比，这两个模型都是比较有代表的基于CNN的模型。
文章插图
其中ViT模型都是在JFT-300M数据集上进行了预训练。从上表可以看出，复杂度较低，规模较小的ViT-L在各个数据集上都超过了ResNet ，并且其所需的算力也要少十多倍。 ViT-H规模更大，但性能也有进一步提升，在ImageNet, CIFAR,Oxford-IIIT, VTAB等数据集上超过了SOTA ，且有大幅提升。
作者进一步将VTAB的任务分为多组，并对比了ViT和其他几个SOTA模型的性能：
文章插图
可以看到除了在Natrual任务中ViT略低于BiT外，在其他三个任务中都达到了SOTA ，这再次证明了ViT的性能强大。
4.3 不同预训练数据集对性能的影响
预训练对于该模型而言是一个非常重要的环节，预训练所用数据集的规模将影响模型的归纳偏置能力，因此作者进一步探究了不同规模的预训练数据集对性能的影响：
文章插图
上图展示了不同规模的预训练数据集（横轴）对不同大小的模型的性能影响，注意微调时的数据集固定为ImageNet 。可以看到对大部分模型而言，预训练数据集规模越大，最终的性能越好。并且随着数据集的增大，较大的ViT模型（ViT-H/14）要由于较小的ViT模型（ViT-L）。
此外，作者还在不同大小的JFT数据集的子集上进行了模型训练：
文章插图
可以发现ViT-L对应的两个模型在数据集规模增大时有非常明显的提升，而ResNet则几乎没有变化。这里可以得出两个结论，一是ViT模型本身的性能上限要优于ResNet,这可以理解为注意力机制的上限高于CNN 。二是在数据集非常大的情况下， ViT模型性能大幅超越ResNet, 这说明在数据足够的情况下，注意力机制完全可以代替CNN ，而在数据集较小的情况下（10M），卷积则更为有效。
除了以上实验，作者还探究了ViT模型的迁移性能，实验结果表明不论是性能还是算力需求， ViT模型在进行迁移时都优于ResNet 。
文章插图
可视化分析
可视化分析可以帮助我们了解ViT的特征学习过程。显然， ViT模型的注意力一定是放在了与分类有关的区域：
文章插图
文章插图
总结
本文提出的基于patch分割的图像解释策略，在结合Transformer的情况下取得了非常好的效果，这为CV领域的其他研究提供了一个很好的思路。此外，接下来应该会出现许多基于这篇工作的研究，进一步将这一划时代的模型应用到更多的任务上，例如目标检测、实例分割、行为识别等等。此外，也会出现针对patch分割策略的改进，来进一步提高模型性能。
#de89ca259eb1
文章插图
文章插图

告别CNN？一张图等于16x16个字，计算机视觉也用上Transformer了( 三 )

推荐阅读

为什么额头老是长痘(最近额头老是长痘痘)

健康直通车|很多女人一辈子都学不会，心理学剖析：凌玲打败罗子君只用了3招

血糖高吃大蒜好吗

七彩菊为什么会甜,七彩菊功效与禁忌

吃阿胶糕对女人有什么好处女人吃阿胶糕的功效

小刀刀的体育世界|火箭需要篮网首轮选新人，他们没时间谈判了，交易哈登已箭在弦上

小A妈妈亲子关系才能正向发展，《你的孩子不是你的孩子》：懂得“边界”

#科技依依酱#i5-10400成性价比之王，intel十代酷睿桌面版CPU性能终极曝光

360kuai|不要搞我啊！，搞笑GIF：啊啊啊

飞机|只靠太阳就能飞我国“启明星50”临近空间长航时大型无人机首飞成功

#趣头条#【郑州缤越车友圈】从灯光方面鉴赏缤越~~~奥利给！！！

鱼肚内的黑膜有毒吗,鱼肚子里的黑膜真的有毒吗

早盘|7月23日午间短评——最后半小时的反弹现端倪

火酒■火酒有什么作用

红米手机|卢伟冰突然宣布，数亿米粉始料未及，网友：再次领先了

不同地方的擂茶习俗

有哪些形状与样式类似于Chanel Le Boy的包

厉害！73岁老人每天抄写四大名著，5年用掉80多支毛笔

龙井虾仁介绍,龙井虾球

html|[路演]华东数控：产品结构调整初见成效毛利率显著提高