YOLO算法最全综述:从YOLOv1到YOLOv5( 五 )
文章插图
具体怎样1拆4 , 下面借用一副图看的很清楚 。 图中示例的是1个4*4拆成4个2*2 。 因为深度不变 , 所以没有画出来 。
文章插图
另外 , 根据YOLO2的代码 , 特征图先用1*1卷积从 26*26*512 降维到 26*26*64 , 再做1拆4并passthrough 。 下面图6有更详细的网络输入输出结构 。
Multi-ScaleTraining(多尺度图像训练)
作者希望YOLO v2能健壮的运行于不同尺寸的图片之上 , 所以把这一想法用于训练model中 。
区别于之前的补全图片的尺寸的方法 , YOLO v2每迭代几次都会改变网络参数 。 每10个Batch , 网络会随机地选择一个新的图片尺寸 , 由于使用了下采样参数是32 , 所以不同的尺寸大小也选择为32的倍数{320 , 352…..608} , 最小320*320 , 最大608*608 , 网络会自动改变尺寸 , 并继续训练的过程 。
这一政策让网络在不同的输入尺寸上都能达到一个很好的预测效果 , 同一网络能在不同分辨率上进行检测 。 当输入图片尺寸比较小的时候跑的比较快 , 输入图片尺寸比较大的时候精度高 , 所以你可以在YOLO v2的速度和精度上进行权衡 。
Figure4 , Table 3:在voc2007上的速度与精度
文章插图
hi-res detector(高分辨率图像的对象检测)
图1表格中最后一行有个hi-res detector , 使mAP提高了1.8 。 因为YOLO2调整网络结构后能够支持多种尺寸的输入图像 。 通常是使用416*416的输入图像 , 如果用较高分辨率的输入图像 , 比如544*544 , 则mAP可以达到78.6 , 有1.8的提升 。
Hierarchical classification(分层分类)作者提出了一种在分类数据集和检测数据集上联合训练的机制 。 使用检测数据集的图片去学习检测相关的信息 , 例如bounding box 坐标预测 , 是否包含物体以及属于各个物体的概率 。 使用仅有类别标签的分类数据集图片去扩展可以检测的种类 。
作者通过ImageNet训练分类、COCO和VOC数据集来训练检测 , 这是一个很有价值的思路 , 可以让我们达到比较优的效果 。 通过将两个数据集混合训练 , 如果遇到来自分类集的图片则只计算分类的Loss , 遇到来自检测集的图片则计算完整的Loss 。
但是ImageNet对应分类有9000种 , 而COCO则只提供80种目标检测 , 作者使用multi-label模型 , 即假定一张图片可以有多个label , 并且不要求label间独立 。 通过作者Paper里的图来说明 , 由于ImageNet的类别是从WordNet选取的 , 作者采用以下策略重建了一个树形结构(称为分层树):
- 遍历Imagenet的label , 然后在WordNet中寻找该label到根节点(指向一个物理对象)的路径;
- 如果路径直有一条 , 那么就将该路径直接加入到分层树结构中;
- 否则 , 从剩余的路径中选择一条最短路径 , 加入到分层树 。
文章插图
分类时的概率计算借用了决策树思想 , 某个节点的概率值等于该节点到根节点的所有条件概率之积 。 最终结果是一颗 WordTree (视觉名词组成的层次结构模型) 。 用WordTree执行分类时 , 预测每个节点的条件概率 。 如果想求得特定节点的绝对概率 , 只需要沿着路径做连续乘积 。 例如 , 如果想知道一张图片是不是“Norfolk terrier ”需要计算:
另外 , 为了验证这种方法作者在WordTree(用1000类别的ImageNet创建)上训练了Darknet-19模型 。 为了创建WordTree1k , 作者天添加了很多中间节点 , 把标签由1000扩展到1369 。 训练过程中ground truth标签要顺着向根节点的路径传播 。 例如 , 如果一张图片被标记为“Norfolk terrier” , 它也被标记为“dog” 和“mammal”等 。 为了计算条件概率 , 模型预测了一个包含1369个元素的向量 , 而且基于所有“同义词集”计算softmax , 其中“同义词集”是同一概念的下位词 。
推荐阅读
- 向日葵远程控制企业版客户端更新升级,优化远控UI适配SADDC内核算法
- 在谷歌算法更新之后2020年盗版网站流量锐减三分之一
- 详解工程师不可不会的LRU缓存淘汰算法
- 今天上海这个比赛上,获奖“程序媛”讲述了自己与算法的爱恨情仇
- 算法萌新如何学好动态规划(3)
- 这场赛事的主角是算法!——首届BPAA全球算法最佳实践典范大赛在上海启动
- 谷歌AI又获重大突破!新算法无需了解规则也能自学成“棋”
- 米家飞利浦台灯3发售:199元、AA级照度+自动算法调节
- 布局AI药物研发!华为招聘药物研发算法工程师,早有准备进军医疗行业?
- 苹果拍照成像好的秘密,源于更优的软件算法