计算机视觉"新"范式:Transformer | NLP和CV能用同一种范式来表达吗?( 三 )


将y表示为gt的集合 ,表示为 个预测结果的集合 。 假设 大于图片目标数 ,可以认为是用空类(无目标)填充的大小为 的集合 。
搜索两个集合 个元素 的不同排列顺序 , 使得loss尽可能的小的排列顺序即为二分图最大匹配(Bipartite Matching) , 公式如下:
其中 表示pred和gt关于 元素 的匹配loss 。 其中二分图匹配通过匈牙利算法(Hungarian algorithm)得到 。
匹配loss同时考虑了pred class和pred box的准确性 。 每个gt的元素 可以看成,表示class label(可能是空类) 表示gt box , 将元素 二分图匹配指定的pred class表示为, pred box表示为。
第一步先找到一对一匹配的pred和gt , 第二步再计算hungarian loss 。
hungarian loss公式如下:
其中 结合了L1 loss和generalized IoU loss , 公式如下:
ViT和DETR两篇文章的实验和可视化分析很有启发性 , 感兴趣的可以仔细看看~~
4 Deformable DETR
从DETR看 , 还不足以赶上CNN , 因为训练时间太久了 , Deformable DETR的出现 , 让我对Transformer有了新的期待 。
Deformable DETR将DETR中的attention替换成Deformable Attention , 使DETR范式的检测器更加高效 , 收敛速度加快10倍 。
计算机视觉"新"范式:Transformer | NLP和CV能用同一种范式来表达吗?文章插图
Deformable DETR提出的Deformable Attention可以可以缓解DETR的收敛速度慢和复杂度高的问题 。 同时结合了deformable convolution的稀疏空间采样能力和transformer的关系建模能力 。
Deformable Attention可以考虑小的采样位置集作为一个pre-filter突出所有feature map的关键特征 , 并且可以自然地扩展到融合多尺度特征 , 并且Multi-scale Deformable Attention本身就可以在多尺度特征图之间进行交换信息 , 不需要FPN操作 。
1. Deformable Attention Module
给定一个query元素(如输出句子中的目标词)和一组key元素(如输入句子的源词) , Multi-Head Attention能够根据query-key pairs的相关性自适应的聚合key的信息 。 为了让模型关注来自不同表示子空间和不同位置的信息 , 对multi-head的信息进行加权聚合 。
其中 表示query元素(特征表示为 ) ,表示key元素(特征表示为 ) ,是特征维度 ,和 分别为 和 的集合 。
那么Transformer 的 Multi-Head Attention公式表示为:
其中 指定attention head ,和 是可学习参数 , 注意力权重 并且归一化, 其中 是可学习参数 。 为了能够分辨不同空间位置 ,和 通常会引入positional embedding 。
对于DETR中的Transformer Encoder , query和key元素都是feature map中的像素 。
DETR 的 Multi-Head Attention 公式表示为:
其中。
DETR主要有两个问题:需要更多的训练时间来收敛 , 对小目标的检测性能相对较差 。 本质上是因为Transfomer的Multi-Head Attention会对输入图片的所有空间位置进行计算 。
而Deformable DETR的Deformable Attention只关注参考点周围的一小部分关键采样点 , 为每个query分配少量固定数量的key , 可以缓解收敛性和输入分辨率受限制的问题 。
给定一个输入feature map,表示为query元素(特征表示为) , 二维参考点表示为, Deformable DETR 的 Deformable Attention公式表示为:
其中 指定attention head ,指定采样的key ,表示采样key的总数 。, 分别表示第 个采样点在第 个attention head的采样偏移量和注意力权重 。 注意力权重 在[0,1]的范围内 , 归一化。表示为无约束范围的二维实数 。 因为 为分数 , 需要采用双线性插值方法计算。
2. Multi-scale Deformable Attention Module
Deformable Attention可以很自然地扩展到多尺度的feature maps 。表示为输入的多尺度feature maps ,。表示为每个query元素 的参考点 的归一化坐标 。 Deformable DETR 的Multi-scale Deformable Attention公式表示为:


推荐阅读