苹果开源FastViT：快速卷积Transformer的混合视觉架构

2023-08-17 FastViT

苹果此前在论文《FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization》中提出的 FastViT 架构已正式开源。

苹果开源FastViT：快速卷积Transformer的混合视觉架构

文章插图
论文地址：https://arxiv.org/pdf/2303.14189.pdf
代码仓库：https://Github.com/Apple/ml-fastvit
FastViT 有机地结合了 CNN 和 Transformer 的优势，无论在精度或者运行效率上均有了稳定的提升。FastViT 引入了一种新的 Token 混合算子，命名为 RepMixer 。从名字来看，它结合了结构重新参数化技术。该算子的作用原理是通过消除网络中的 skip connection 来降低内存访问成本。
FastViT 整体框架图：

苹果开源FastViT：快速卷积Transformer的混合视觉架构

文章插图
实验结果表明，FastViT：

在移动设备上的速度比混合 Transformer 架构 CMT 快 3.5 倍
在 Imag.NET 数据集上的精度相同，但速度比 EfficientNet 快 4.9 倍且比 ConvNeXt 快 1.9 倍
在相似的延迟下，FastViT 在 ImageNet 上的 Top-1 精度比 MobileOne 高出 4.2％

苹果开源FastViT：快速卷积Transformer的混合视觉架构

文章插图
参考：https://mp.weixin.qq.com/s/poJur-vOtU2-h2tUe89shA、https://mp.weixin.qq.com/s/uqcWy4sx1NQuqOplsGDUlg
END

【苹果开源FastViT：快速卷积Transformer的混合视觉架构】

推荐阅读

上一篇：打印机行业“潜规则”曝光：没有墨水无法扫描、传真

下一篇：Web和云开发，Rust会起飞？