遇见SAM-PT：一种新的人工智能方法，将Segment Anything Model（SAM）的能力扩展到动态视频中的任何跟踪和分割任务

遇见SAM-PT：一种新的人工智能方法，将Segment Anything Model（SAM）的能力扩展到动态视频中的任何跟踪和分割任务四海第1张

许多应用，如机器人技术、自动驾驶和视频编辑，从视频分割中受益。深度神经网络在过去几年取得了很大的进展。然而，现有的方法需要在未经尝试的数据上进行调整，尤其是在零样本情况下。这些模型需要特定的视频分割数据进行微调，以在不同场景下保持一致的性能。在零样本设置中，或当这些模型被转移到未经过训练的视频领域，并涵盖训练分布之外的对象类别时，当前的半监督视频对象分割（VOS）和视频实例分割（VIS）方法在处理未知数据时显示出性能差距。

使用来自图像分割领域的成功模型来进行视频分割任务可以解决这些问题。Segment Anything（SAM）概念就是一个有前途的解决方案之一。SA-1B数据集作为SAM的训练基础模型，其中包含了1100万张图片和10亿个掩膜。由于其庞大的训练集，SAM具备了出色的零样本泛化能力。该模型已经证明在使用零样本转移协议进行各种下游任务时能够可靠地运行，并且非常可定制，并能从单个前景点生成高质量的掩膜。

SAM表现出很强的零样本图像分割能力。然而，它并不自然适用于视频分割问题。最近，SAM已经被修改以包括视频分割。例如，TAM将SAM与最先进的基于内存的掩膜跟踪器XMem相结合。类似于SAM-Track将DeAOT与SAM相结合的方式。尽管这些技术在恢复SAM在分布数据上的性能方面取得了很大进展，但在应用于更困难的零样本条件时仍然存在缺陷。许多分割问题可以通过其他不需要SAM的视觉提示技术来解决，包括SegGPT，尽管它们仍然需要对初始视频帧进行掩膜标注。

这个问题对于零样本视频分割来说是一个重大障碍，特别是当研究人员致力于创建简单的技术来推广到新情况并可靠地在各种视频领域中产生高质量的分割时。ETH Zurich、HKUST和EPFL的研究人员介绍了SAM-PT（Segment Anything Meets Point Tracking）。这种方法通过首次使用稀疏点跟踪和SAM来分割视频，为这个问题提供了一种新的方法。与使用掩膜传播或以物体为中心的密集特征匹配相比，他们提出了一种使用电影中编码的详细局部结构数据来跟踪点的方法。

因此，它只需要在第一帧中对稀疏点进行注释以指示目标对象，并提供了对未知对象的卓越泛化能力，这一优势已经在开放世界的UVO基准测试中得到证明。这种策略有效地扩展了SAM在视频分割方面的能力，同时保持了其固有的灵活性。利用PIPS等现代点跟踪器的灵活性，SAM-PT使用这些工具预测的稀疏点轨迹来提示SAM。他们得出的结论是，最适合激励SAM的方法是使用从掩膜标签中的K-Medoids聚类中心初始化要跟踪的位置。

通过同时跟踪正点和负点，可以清楚地区分背景和目标对象。他们建议使用这些点来改进输出掩膜的不同掩膜解码过程。他们还开发了一种点重新初始化技术，以提高随时间的追踪精度。在该方法中，不可靠或遮挡的点被丢弃，而在后续帧中变得可见的对象的部分或段的点被添加，例如当对象旋转时。

值得注意的是，他们的测试结果显示，SAM-PT在几个视频分割基准上的表现与现有的零样本方法相当或更好。这表明他们的方法是多么适应和可靠，因为在训练过程中不需要视频分割数据。在零样本设置中，SAM-PT可以加速视频分割任务的进展。他们的网站上有多个互动视频演示。