“分割一切”视频版来了:点几下鼠标,动态的人、物就圈出来了( 二 )


3) 利用 SAM 生成基于传播点的逐帧分割掩码;
4) 通过从预测的掩码中抽取查询点来重新初始化这个过程 。

“分割一切”视频版来了:点几下鼠标,动态的人、物就圈出来了

文章插图
选择查询点 。该过程的第一步是定义第一个视频帧中的查询点 。这些查询点要么表示目标对象 (正点),要么指定背景和非目标对象 (负点) 。用户可以手动、交互式地提供查询点,也可以从真实掩码派生出查询点 。
考虑到它们的几何位置或特征差异性,用户可以使用不同的点采样技术从真实掩码中获得查询点,如图 3 所示 。这些采样技术包括:随机采样、K-Medoids 采样、Shi-Tomasi 采样和混合采样 。
“分割一切”视频版来了:点几下鼠标,动态的人、物就圈出来了

文章插图
点跟踪 。从查询点开始,采用稳健的点跟踪器在视频中的所有帧中传播点,从而得到点的轨迹和遮挡分数 。
采用最先进的点跟踪器 PIPS 来传播点,因为 PIPS 对长期跟踪挑战 (如目标遮挡和再现) 显示出适当的稳健性 。实验也表明,这比链式光流传播或第一帧对应等方法更有效 。
分割 。在预测的轨迹中,未遮挡的点作为目标对象在整个视频中的位置的指示器 。这时就可以使用非遮挡点来提示 SAM,并利用其固有的泛化能力来输出每帧分割掩码预测(如图 4 所示)。
“分割一切”视频版来了:点几下鼠标,动态的人、物就圈出来了

文章插图
点跟踪重新初始化 。一旦达到 h = 8 帧的预测期,用户就可以选择使用预测掩码对查询点进行重新初始化,并将变体表示为 SAM-PT-reinit 。在到达这个水平线时,会有 h 个预测的掩码,并将使用最后一个预测的掩模来采样新的点 。在这一阶段,之前所有的点都被丢弃,用新采样点来代替 。
根据上面的方法,就可以将这个视频进行流畅的分割了,如下图:
“分割一切”视频版来了:点几下鼠标,动态的人、物就圈出来了

文章插图
看看更多的展示效果:
“分割一切”视频版来了:点几下鼠标,动态的人、物就圈出来了

文章插图

“分割一切”视频版来了:点几下鼠标,动态的人、物就圈出来了

文章插图
SAM-PT 与以目标为中心的掩码传播的比较
SAM- PT 将稀疏点跟踪与提示 SAM 相结合,并区别于传统依赖于密集目标掩码传播的视频分割方法,如表 1 所示 。
与在训练期间不利用视频分割数据的方法相比,SAM-PT 有着与之相当甚至更好的表现 。然而,这些方法与那些利用同一域中的视频分割训练数据的方法,如 XMem 或 DeAOT 之间还是存在着性能差距 。
综上所述,SAM-PT 是第一个引入稀疏点传播并结合提示图像分割基础模型,进行零样本视频对象分割的方法 。它为关于视频对象分割的研究提供了一个新的视角,并增加了一个新的维度 。
“分割一切”视频版来了:点几下鼠标,动态的人、物就圈出来了

文章插图
实验结果
对于视频物体分割,研究团队在四个 VOS 数据集上评估了他们的方法,分别是 DAVIS 2016, DAVIS 2017, YouTube-VOS 2018, 和 MOSE 2023 。
对于视频实例分割,他们在 UVO v1.0 数据集的 densevideo 任务上评估了该方法 。
他们还用图像实例分割中的标准评估指标来评估所提出方法,这也适用于视频实例分割 。这些指标包括平均准确率(AP)和基于 IoU 的平均召回率(AR) 。
视频物体分割的结果
在 DAVIS 2017 数据集上,本文提出的方法优于其他没有经过任何视频物体分割数据训练的方法,如表 3 所示 。
“分割一切”视频版来了:点几下鼠标,动态的人、物就圈出来了

文章插图
SAM-PT 在 YouTube-VOS 2018 和 MOSE 2023 数据集上的表现也超过了 PerSAM-F,取得了 67.0 和 41.0 的平均分,如表 4、表 5 所示 。然而,在不同的掩码训练数据下,与 SegGPT 相比,SAM-PT 在这两个数据集上的表现有所欠缺 。
“分割一切”视频版来了:点几下鼠标,动态的人、物就圈出来了

文章插图
定性分析 。在 DAVIS 2017 上对 SAM-PT 和 SAM-PTreinit 成功的视频分割的可视化结果分别见图 7a 和图 7b 。值得注意的是,图 8 展示了对未知网络视频的成功视频分割 —— 来自受动画影响的动画电视系列《降世神通:最后的气宗》的片段,这表明了所提出方法的零样本能力 。
“分割一切”视频版来了:点几下鼠标,动态的人、物就圈出来了

文章插图
局限和挑战 。SAM-TP 的零样本性能很有竞争力,但仍然存在着一些局限 。这些局限主要集中在点跟踪器在处理遮挡、小物体、运动模糊和重新识别方面 。在这些方面,点跟踪器的错误会传播到未来的视频帧中 。


推荐阅读