「」CVPR 2020基于记忆增强的全局-局部整合网络-更准的视频物体检测( 二 )


不仅如此 , 这两部分结构还互相受益:长时记忆模块使得关键帧能够获得更多的全局和局部信息 , 反过来 , 这些帧又能够提供更加强大的记忆 。
实验结果
我们在广泛使用的视频物体检测数据集 ImageNet VID 上对我们的方法进行了实验 , 表1总结了我们的方法与其他方法相比的表现 。在本文新提出的模块的辅助下 , 我们训练出来的视频物体检测器取得了在该数据集上的至今最佳结果 。
「」CVPR 2020基于记忆增强的全局-局部整合网络-更准的视频物体检测
文章图片

文章图片

表1:总体实验结果
为了验证我们方法的有效性 , 我们做了充足的消融实验 。表2展示了我们的模型中各个模块的作用 , 表3展示了全局信息和局部信息两个缺一不可 , 表4则说明了超参数对模型整体表现的影响 。
表2:各个模块的作用
「」CVPR 2020基于记忆增强的全局-局部整合网络-更准的视频物体检测
文章图片

文章图片

表3:全局信息与局部信息的作用
「」CVPR 2020基于记忆增强的全局-局部整合网络-更准的视频物体检测
文章图片

文章图片

表4:超参数的设置
图4是模型的一些可视化结果 。可以看到我们的方法能够克服许多困难的情形 , 得出不错的检测结果 。
「」CVPR 2020基于记忆增强的全局-局部整合网络-更准的视频物体检测
文章图片

文章图片

图4:可视化结果
结语
【「」CVPR 2020基于记忆增强的全局-局部整合网络-更准的视频物体检测】在本文中 , 我们提出了基于记忆增强的全局-局部整合网络(MEGA) , 它从全局和局部两方面出发 , 共同解决视频物体检测的问题 。首先我们将全局特征整合到局部特征中 , 以解决无效的问题 。之后 , 我们引入了新的长时记忆模块(Long Range Memory, LRM)来解决整合规模太小的问题 。在视频物体检测数据集 ImageNet VID 上进行的实验表明 , 我们的方法取得了在该数据集上的至今最佳结果 。


推荐阅读