计算机视觉"新"范式：Transformer | NLP和CV能用同一种范式来表达吗？( 三 ) 自从Transformer出来以后

将y表示为gt的集合，表示为个预测结果的集合。假设大于图片目标数，可以认为是用空类(无目标)填充的大小为的集合。
搜索两个集合个元素的不同排列顺序，使得loss尽可能的小的排列顺序即为二分图最大匹配(Bipartite Matching) ，公式如下：
其中表示pred和gt关于元素的匹配loss 。其中二分图匹配通过匈牙利算法(Hungarian algorithm)得到。
匹配loss同时考虑了pred class和pred box的准确性。每个gt的元素可以看成，表示class label(可能是空类) 表示gt box ，将元素二分图匹配指定的pred class表示为， pred box表示为。
第一步先找到一对一匹配的pred和gt ，第二步再计算hungarian loss 。
hungarian loss公式如下：
其中结合了L1 loss和generalized IoU loss ，公式如下：
ViT和DETR两篇文章的实验和可视化分析很有启发性，感兴趣的可以仔细看看~~
4 Deformable DETR
从DETR看，还不足以赶上CNN ，因为训练时间太久了， Deformable DETR的出现，让我对Transformer有了新的期待。
Deformable DETR将DETR中的attention替换成Deformable Attention ，使DETR范式的检测器更加高效，收敛速度加快10倍。
文章插图
Deformable DETR提出的Deformable Attention可以可以缓解DETR的收敛速度慢和复杂度高的问题。同时结合了deformable convolution的稀疏空间采样能力和transformer的关系建模能力。
Deformable Attention可以考虑小的采样位置集作为一个pre-filter突出所有feature map的关键特征，并且可以自然地扩展到融合多尺度特征，并且Multi-scale Deformable Attention本身就可以在多尺度特征图之间进行交换信息，不需要FPN操作。
1. Deformable Attention Module
给定一个query元素(如输出句子中的目标词)和一组key元素(如输入句子的源词) ， Multi-Head Attention能够根据query-key pairs的相关性自适应的聚合key的信息。为了让模型关注来自不同表示子空间和不同位置的信息，对multi-head的信息进行加权聚合。
其中表示query元素(特征表示为 ) ，表示key元素(特征表示为 ) ，是特征维度，和分别为和的集合。
那么Transformer 的 Multi-Head Attention公式表示为：
其中指定attention head ，和是可学习参数，注意力权重并且归一化，其中是可学习参数。为了能够分辨不同空间位置，和通常会引入positional embedding 。
对于DETR中的Transformer Encoder ， query和key元素都是feature map中的像素。
DETR 的 Multi-Head Attention 公式表示为：
其中。
DETR主要有两个问题：需要更多的训练时间来收敛，对小目标的检测性能相对较差。本质上是因为Transfomer的Multi-Head Attention会对输入图片的所有空间位置进行计算。
而Deformable DETR的Deformable Attention只关注参考点周围的一小部分关键采样点，为每个query分配少量固定数量的key ，可以缓解收敛性和输入分辨率受限制的问题。
给定一个输入feature map，表示为query元素(特征表示为) ，二维参考点表示为， Deformable DETR 的 Deformable Attention公式表示为：
其中指定attention head ，指定采样的key ，表示采样key的总数。, 分别表示第个采样点在第个attention head的采样偏移量和注意力权重。注意力权重在[0,1]的范围内，归一化。表示为无约束范围的二维实数。因为为分数，需要采用双线性插值方法计算。
2. Multi-scale Deformable Attention Module
Deformable Attention可以很自然地扩展到多尺度的feature maps 。表示为输入的多尺度feature maps ，。表示为每个query元素的参考点的归一化坐标。 Deformable DETR 的Multi-scale Deformable Attention公式表示为：

计算机视觉"新"范式：Transformer | NLP和CV能用同一种范式来表达吗？( 三 )

推荐阅读

拾物记|武则天为何对狄仁杰如此器重甚至在他去世之后哀叹朝堂空矣

虞书欣安崎向岳云鹏认错|虞书欣安崎向岳云鹏认错怎么回事？两人有什么纠葛

IT那些事儿苹果不再赠送充电器和耳机一切向利润看齐的野心

轮滑|60岁大爷玩轮滑和未牵绳的狗相撞，如何划分责任引争议

【食材】家庭烧烤 | 食材简单！比烧烤摊好吃百倍

可爱的贵生|雨过天晴，彩虹出现，4大星座爱情重逢，再度相爱，未来一周

「懒懒的叉子」这样做难道就不怕挨打吗？，搞笑GIF趣图开心一刻：小哥很皮啊

小爱说游戏我把他一个月工资扣了，Uzi极限开团Godv：他要不是俱乐部老板

「玛加迪镇」通讯：“中国维和官兵为我们圆梦”——记中国赴黎巴

生肖|11月中下旬多有机遇降临，贵人提拔点拨，人生与众不同的3生肖

港股挖掘机|| 康德莱医械(01501)涨超5% 中期纯利同比增长42.58%至6739.3万，港股异动

斑马网|再遭泄露噩梦！网上惊现《最后生还者2》多人模式视频

孩子|郑州暴雨众人游泳破窗救下三人救援过程惊心动魄网友点赞

起跑线|汪涵6岁儿子上8个兴趣班被逼到崩溃：鸡娃的隐患，将在10年后爆发

雨晖游戏迷|降服金鱼精时，观音为何不梳妆就来了，你看看她念的咒语是什么，原创

爱云资讯 5.0版本又在云栖大会亮相了，真香！斑马智行4.0刚上车

脸部穴位图及作用?用什么怎么能把脸化装的白白的粉嫩的啊？？？谁能详细点教教我??谢谢!!?

诗文全世界|新时代生活离不开汽车

翡翠|棉不是瑕疵吗？为什么高冰种雪花棉，能够卖上这么昂贵的价格

「润涵谈娱乐」为给纪晓岚“降火”，乾隆皇帝赐给纪晓岚两个宫女

计算机视觉&quot;新&quot;范式：Transformer | NLP和CV能用同一种范式来表达吗？( 三 )

推荐阅读

计算机视觉"新"范式：Transformer | NLP和CV能用同一种范式来表达吗？( 三 )