ATSS:自动选择物体检测中的正负样本( 二 )

<θn的都认为是负样本 , 其他的都忽略掉 。 如图1(b) , FCOS使用空间和尺度约束将anchor点分配到不同的level上 , 首先将所有在groundtruth box内的anchor点作为候选点 , 然后基于预先对每个level设置的尺度范围来选择最终的正样本 , 没有选中的点就是负样本 。
ATSS:自动选择物体检测中的正负样本文章插图
这两种不同的方案最终的到了不同的正负样本 。 见表2 , 如果在RetinaNet(#A=1)使用空间和尺度约束的方式来代替IOU来选择正负样本 , RetinaNet(#A=1)的performance可以提升到37.8% 。 而对于FCOS , 如果使用IOU的策略在选择正负样本 , 那么performance会降到36.9% 。 这表明了正负样本的选择策略才是这两种方法的根本区别 。
ATSS:自动选择物体检测中的正负样本文章插图
回归
在正负样本确定了之后 , 需要对正样本进行物体位置的回归 。 如果图2 , RetinaNet回归的是anchor box和groundtruth的4个offset , 而FCOS回归的是anchor点到4条边的距离 。 这表明RetinaNet的回归起点是一个框 , 而FCOS的回归起点是一个点 。 而表2中可以看到 , 当RetinaNet和FCOS使用相同的正负样本选择策略的时候 , 两者并没有明显的差别 , 这表明回归的起点并不是两个方法的本质区别 。
ATSS:自动选择物体检测中的正负样本文章插图
结论 从上面的实验可以得出结论 , 一阶段的anchor based物体检测方法和center-based anchor free的物体检测方法的本质区别在于正负样本的选取策略上 。
3. 自适应样本选择3.1 描述之前的样本选择策略都是有一些敏感的超参数的 , 比如anchor based方法中有IOU的阈值 , anchor free的方法中有尺度范围 。 我们提出的自适应的方法 , 通过物体的统计特性 , 自动的区分正负样本 , 不需要任何超参数 。
对于每个groundtruth box g , 我们首先找到它的候选正样本 。 在每个level上 , 我们选择k个anchor box , 它们的中心点和g的中心点的距离是最近的 。 假设有L的特征level , groundtruth box g就可以得到k×L个候选正样本 , 然后 , 我们计算这些候选正样本与g的IOU , 这些IOU的均值和方差记为mg和vg , 得到IOU的阈值tg=mg+vg , 然后 , 我们在这些候选正样本中选择IOU大于等于阈值tg的作为最终的正样本 。 我们还特别的对正样本的中心做了限制 , 必须落在物体内部 , 另外 , 如果某个anchor box匹配到了多个groundtruth box上 , 只选择IOU最高的那个作为最终的匹配 。 其余的都是负样本 。 算法流程如下:
ATSS:自动选择物体检测中的正负样本文章插图
基于中心距离来选择候选正样本
对于RetinaNet , anchor box和groundtruth box的中心点越接近 , IOU会越大 , 对于FCOS , anchor点和物体中心越接近 , 产生的检测的质量越高 。 因此 , 越靠近物体中心的anchor是更好的候选正样本 。
使用均值和方差的和作为IOU的阈值
IOU的均值是这个物体和anchor box的匹配度的度量 , mg越大表示候选正样本的质量越高 , 那么IOU的阈值可以设置的高一些 。 mg越小表示候选正样本的质量越低 , 阈值应该设置的小一些 。 vg是哪些特征level与这个物体相匹配的度量 , vg高 , 表明对于这个物体 , 有一个非常匹配的特征level , 可以使用较大的阈值只从哪个最匹配的层中选择正样本 , 而vg低 , 表明好几个特征level都可以和这个物体匹配 , 设置一个较小的阈值可以广泛的从这几个合适的层中都选出样本来作为正样本 。 见图3 。
ATSS:自动选择物体检测中的正负样本文章插图


推荐阅读