“分割一切”视频版来了:点几下鼠标,动态的人、物就圈出来了

编辑:梓文、rome rome

只要在视频中点几下鼠标,SAM-PT 就能分割并且追踪物体的轮廓 。

“分割一切”视频版来了:点几下鼠标,动态的人、物就圈出来了

文章插图
视频分割在许多场景下被广泛应用 。电影视觉效果的增强、自动驾驶的理解场景,以及视频会议中创建虚拟背景等等都需要应用到视频分割 。近期,基于深度学习的视频分割已经有着不错的表现了,但这依旧是计算机视觉中一个具有挑战性的话题 。
在半监督视频对象分割(VOS)和视频实例分割(VIS)方面,目前的主流方法处理未知数据时表现一般,是在零样本情况下更是「一言难尽」 。零样本情况就是指,这些模型被迁移应用到未经过训练的视频领域,并且这些视频中包含训练之外的物体 。而表现一般的原因就是没有特定的视频分割数据进行微调,这些模型就很难在各种场景中保持一致的性能 。
克服这个难题,就需要将在图像分割领域取得成功的模型应用到视频分割任务中 。这就不得不提到 Segment Anything Model(SAM,分割一切模型)了 。
SAM 是一个强大的图像分割基础模型,它在规模庞大的 SA-1B 数据集上进行训练,这其中包含 1100 万张图像和 10 亿多个掩码 。大量的训练让 SAM 了具备惊人的零样本泛化能力 。SAM 可以在不需要任何标注的情况下,对任何图像中的任何物体进行分割,引起了业界的广泛反响,甚至被称为计算机视觉领域的 GPT 。
尽管 SAM 在零样本图像分割上展现了巨大的能力,但它并非「天生」就适用于视频分割任务 。
最近研究人员已经开始致力于将 SAM 应用于视频分割 。虽然这些方法恢复了大部分分布内数据的性能,但在零样本情况下,它们还是无法保持 SAM 的原始性能 。其他不使用 SAM 的方法,如 SegGPT,可以通过视觉 prompt 成功解决一些分割问题,但仍需要对第一帧视频进行掩码注释 。这个问题在零样本视频分割中的关键难题 。当研究者试图开发能够容易地推广到未见过的场景,并在不同的视频领域持续提供高质量分割的方法时,这个难题就显得更加「绊脚」 。
现在,有研究者提出了 SAM-PT(Segment Anything Meets Point Tracking),这或许能够对「绊脚石」的消除提供新的思路 。
“分割一切”视频版来了:点几下鼠标,动态的人、物就圈出来了

文章插图
论文地址:
https://arxiv.org/pdf/2307.01197.pdf
Github 地址:
https://github.com/SysCV/sam-pt
如图 1 所示,SAM-PT 第一种将稀疏点追踪与 SAM 相结合用于视频分割的方法 。与使用以目标为中心的密集特征匹配或掩码传播不同,这是一种点驱动的方法 。它利用嵌入在视频中的丰富局部结构信息来跟踪点 。因此,它只需要在第一帧中用稀疏点注释目标对象,并在未知对象上有更好的泛化能力,这一优势在 UVO 基准测试中得到了证明 。该方法还有助于保持 SAM 的固有灵活性,同时有效地扩展了它在视频分割方面的能力 。
“分割一切”视频版来了:点几下鼠标,动态的人、物就圈出来了

文章插图
SAM-PT 使用最先进的点追踪器(如 PIPS)预测稀疏点轨迹,以此提示 SAM,利用其多功能性进行视频分割 。研究人员发现,使用来自掩码标签的 K-Medoids 聚类中心来初始化跟踪点,是与提示 SAM 最兼容的策略 。追踪正反两方面的点可以将目标物体从其背景中清晰地划分出来 。
为了进一步优化输出的掩码,研究人员提出了多个掩码解码通道,将两种类型的点进行整合 。此外,他们还设计了一种点重新初始化策略,随着时间的推移提高了跟踪的准确性 。这种方法包括丢弃变得不可靠或被遮挡的点,并添加在后续帧 (例如当物体旋转时) 中变得可见的物体部分或部分的点 。
值得注意的是,本文的实验结果表明,SAM-PT 在几个视频分割基准上与现有的零样本方法不相上下,甚至超过了它们 。在训练过程中,SAM-PT 不需要任何视频分割数据,这证明了方法的稳健性和适应性 。SAM-PT 具有增强视频分割任务进展的潜力,特别是在零样本场景下 。
SAM-PT 方法概览
尽管 SAM 在图像分割方面展示出令人印象深刻的能力,但其在处理视频分割任务方面存在固有的局限性 。我们提出的 "Segment Anything Meets Point Tracking"(SAM-PT)方法有效地将 SAM 扩展到视频领域,为视频分割提供了强大的支持,而无需对任何视频分割数据进行训练 。
如图 2 所示,SAM-PT 主要由四个步骤组成:
1) 为第一帧选择查询点;
2) 使用点跟踪器,将这些点传播到所有视频帧;


推荐阅读