计算机视觉"新"范式：Transformer | NLP和CV能用同一种范式来表达吗？( 二 ) 自从Transformer出来以后

2 ViT
ViT将Transformer巧妙的应用于图像分类任务，更少计算量下性能跟SOTA相当。
文章插图
Vision Transformer(ViT)将输入图片拆分成16x16个patches ，每个patch做一次线性变换降维同时嵌入位置信息，然后送入Transformer ，避免了像素级attention的运算。类似BERT[class]标记位的设置， ViT在Transformer输入序列前增加了一个额外可学习的[class]标记位，并且该位置的Transformer Encoder输出作为图像特征。
其中为原图像分辨率，为每个图像patch的分辨率。为Transformer输入序列的长度。
ViT舍弃了CNN的归纳偏好问题，更加有利于在超大规模数据上学习知识，即大规模训练优归纳偏好，在众多图像分类任务上直逼SOTA 。
3 DETR
DETR使用set loss function作为监督信号来进行端到端训练，然后同时预测所有目标，其中set loss function使用bipartite matching算法将pred目标和gt目标匹配起来。
直接将目标检测任务看成set prediction问题，使训练过程变的简洁，并且避免了anchor、NMS等复杂处理。
DETR主要有两个部分：architecture和set prediction loss 。
1. Architecture
文章插图
DETR先用CNN将输入图像embedding成一个二维表征，然后将二维表征转换成一维表征并结合positional encoding一起送入encoder ， decoder将少量固定数量的已学习的object queries(可以理解为positional embeddings)和encoder的输出作为输入。
最后将decoder得到的每个output embdding传递到一个共享的前馈网络(FFN) ，该网络可以预测一个检测结果(包括类和边框)或着“没有目标”的类。
1.1 Transformer
文章插图
1.1.1 Encoder
将Backbone输出的feature map转换成一维表征，得到特征图，然后结合positional encoding作为Encoder的输入。
每个Encoder都由Multi-Head Self-Attention和FFN组成。
和Transformer Encoder不同的是，因为Encoder具有位置不变性， DETR将positional encoding添加到每一个Multi-Head Self-Attention中，来保证目标检测的位置敏感性。
1.1.2 Decoder
因为Decoder也具有位置不变性， Decoder的个object query(可以理解为学习不同object的positional embedding)必须是不同，以便产生不同的结果，并且同时把它们添加到每一个Multi-Head Attention中。
个object queries通过Decoder转换成一个output embedding ，然后output embedding通过FFN独立解码出个预测结果，包含box和class 。
对输入embedding同时使用Self-Attention和Encoder-Decoder Attention ，模型可以利用目标的相互关系来进行全局推理。
和Transformer Decoder不同的是， DETR的每个Decoder并行输出个对象， Transformer Decoder使用的是自回归模型，串行输出个对象，每次只能预测一个输出序列的一个元素。
1.1.3 FFN
FFN由3层perceptron和一层linear projection组成。 FFN预测出box的归一化中心坐标、长、宽和class 。
DETR预测的是固定数量的个box的集合，并且通常比实际目标数要大的多，所以使用一个额外的空类来表示预测得到的box不存在目标。
2. Set prediction loss
DETR模型训练的主要困难是如何根据gt衡量预测结果(类别、位置、数量) 。 DETR提出的loss函数可以产生pred和gt的最优双边匹配(确定pred和gt的一对一关系) ，然后优化loss 。

计算机视觉"新"范式：Transformer | NLP和CV能用同一种范式来表达吗？( 二 )

推荐阅读

拾物记|武则天为何对狄仁杰如此器重甚至在他去世之后哀叹朝堂空矣

虞书欣安崎向岳云鹏认错|虞书欣安崎向岳云鹏认错怎么回事？两人有什么纠葛

IT那些事儿苹果不再赠送充电器和耳机一切向利润看齐的野心

轮滑|60岁大爷玩轮滑和未牵绳的狗相撞，如何划分责任引争议

【食材】家庭烧烤 | 食材简单！比烧烤摊好吃百倍

可爱的贵生|雨过天晴，彩虹出现，4大星座爱情重逢，再度相爱，未来一周

「懒懒的叉子」这样做难道就不怕挨打吗？，搞笑GIF趣图开心一刻：小哥很皮啊

小爱说游戏我把他一个月工资扣了，Uzi极限开团Godv：他要不是俱乐部老板

「玛加迪镇」通讯：“中国维和官兵为我们圆梦”——记中国赴黎巴

生肖|11月中下旬多有机遇降临，贵人提拔点拨，人生与众不同的3生肖

港股挖掘机|| 康德莱医械(01501)涨超5% 中期纯利同比增长42.58%至6739.3万，港股异动

斑马网|再遭泄露噩梦！网上惊现《最后生还者2》多人模式视频

孩子|郑州暴雨众人游泳破窗救下三人救援过程惊心动魄网友点赞

起跑线|汪涵6岁儿子上8个兴趣班被逼到崩溃：鸡娃的隐患，将在10年后爆发

雨晖游戏迷|降服金鱼精时，观音为何不梳妆就来了，你看看她念的咒语是什么，原创

爱云资讯 5.0版本又在云栖大会亮相了，真香！斑马智行4.0刚上车

脸部穴位图及作用?用什么怎么能把脸化装的白白的粉嫩的啊？？？谁能详细点教教我??谢谢!!?

诗文全世界|新时代生活离不开汽车

翡翠|棉不是瑕疵吗？为什么高冰种雪花棉，能够卖上这么昂贵的价格

「润涵谈娱乐」为给纪晓岚“降火”，乾隆皇帝赐给纪晓岚两个宫女

计算机视觉&quot;新&quot;范式：Transformer | NLP和CV能用同一种范式来表达吗？( 二 )

推荐阅读

计算机视觉"新"范式：Transformer | NLP和CV能用同一种范式来表达吗？( 二 )