“分割一切”视频版来了：点几下鼠标，动态的人、物就圈出来了 _视频

编辑：梓文、rome rome

只要在视频中点几下鼠标，SAM-PT 就能分割并且追踪物体的轮廓。

文章插图
视频分割在许多场景下被广泛应用。电影视觉效果的增强、自动驾驶的理解场景，以及视频会议中创建虚拟背景等等都需要应用到视频分割。近期，基于深度学习的视频分割已经有着不错的表现了，但这依旧是计算机视觉中一个具有挑战性的话题。
在半监督视频对象分割（VOS）和视频实例分割（VIS）方面，目前的主流方法处理未知数据时表现一般，是在零样本情况下更是「一言难尽」。零样本情况就是指，这些模型被迁移应用到未经过训练的视频领域，并且这些视频中包含训练之外的物体。而表现一般的原因就是没有特定的视频分割数据进行微调，这些模型就很难在各种场景中保持一致的性能。
克服这个难题，就需要将在图像分割领域取得成功的模型应用到视频分割任务中。这就不得不提到 Segment Anything Model（SAM，分割一切模型）了。
SAM 是一个强大的图像分割基础模型，它在规模庞大的 SA-1B 数据集上进行训练，这其中包含 1100 万张图像和 10 亿多个掩码。大量的训练让 SAM 了具备惊人的零样本泛化能力。SAM 可以在不需要任何标注的情况下，对任何图像中的任何物体进行分割，引起了业界的广泛反响，甚至被称为计算机视觉领域的 GPT 。
尽管 SAM 在零样本图像分割上展现了巨大的能力，但它并非「天生」就适用于视频分割任务。
最近研究人员已经开始致力于将 SAM 应用于视频分割。虽然这些方法恢复了大部分分布内数据的性能，但在零样本情况下，它们还是无法保持 SAM 的原始性能。其他不使用 SAM 的方法，如 SegGPT，可以通过视觉 prompt 成功解决一些分割问题，但仍需要对第一帧视频进行掩码注释。这个问题在零样本视频分割中的关键难题。当研究者试图开发能够容易地推广到未见过的场景，并在不同的视频领域持续提供高质量分割的方法时，这个难题就显得更加「绊脚」。
现在，有研究者提出了 SAM-PT（Segment Anything Meets Point Tracking），这或许能够对「绊脚石」的消除提供新的思路。

文章插图
论文地址：
https://arxiv.org/pdf/2307.01197.pdf
Github 地址：
https://github.com/SysCV/sam-pt
如图 1 所示，SAM-PT 第一种将稀疏点追踪与 SAM 相结合用于视频分割的方法。与使用以目标为中心的密集特征匹配或掩码传播不同，这是一种点驱动的方法。它利用嵌入在视频中的丰富局部结构信息来跟踪点。因此，它只需要在第一帧中用稀疏点注释目标对象，并在未知对象上有更好的泛化能力，这一优势在 UVO 基准测试中得到了证明。该方法还有助于保持 SAM 的固有灵活性，同时有效地扩展了它在视频分割方面的能力。

文章插图
SAM-PT 使用最先进的点追踪器（如 PIPS）预测稀疏点轨迹，以此提示 SAM，利用其多功能性进行视频分割。研究人员发现，使用来自掩码标签的 K-Medoids 聚类中心来初始化跟踪点，是与提示 SAM 最兼容的策略。追踪正反两方面的点可以将目标物体从其背景中清晰地划分出来。
为了进一步优化输出的掩码，研究人员提出了多个掩码解码通道，将两种类型的点进行整合。此外，他们还设计了一种点重新初始化策略，随着时间的推移提高了跟踪的准确性。这种方法包括丢弃变得不可靠或被遮挡的点，并添加在后续帧 (例如当物体旋转时) 中变得可见的物体部分或部分的点。
值得注意的是，本文的实验结果表明，SAM-PT 在几个视频分割基准上与现有的零样本方法不相上下，甚至超过了它们。在训练过程中，SAM-PT 不需要任何视频分割数据，这证明了方法的稳健性和适应性。SAM-PT 具有增强视频分割任务进展的潜力，特别是在零样本场景下。
SAM-PT 方法概览
尽管 SAM 在图像分割方面展示出令人印象深刻的能力，但其在处理视频分割任务方面存在固有的局限性。我们提出的 "Segment Anything Meets Point Tracking"（SAM-PT）方法有效地将 SAM 扩展到视频领域，为视频分割提供了强大的支持，而无需对任何视频分割数据进行训练。
如图 2 所示，SAM-PT 主要由四个步骤组成:
1) 为第一帧选择查询点；
2) 使用点跟踪器，将这些点传播到所有视频帧；