分割是计算机视觉的核心，它是识别图像中属于对象的像素的过程。这个过程在科学成像到照片编辑等应用中都有使用，技术专家必须具备高超的能力，并且可以访问拥有大量注释数据的AI基础设施，以进行准确建模。

Meta AI最近推出了其Segment Anything项目，该项目是一个图像分割数据集和模型，包括Segment Anything Model（SAM）和SA-1B掩码数据集，是目前最大的分割数据集，为计算机视觉的基本模型研究提供进一步的支持。他们将SA-1B提供给研究使用，而SAM则在Apache 2.0开源许可下授权给任何人使用此演示来尝试使用自己的图像。

分割任何物体模型：图像分割的基础模型四海第1张

朝向泛化分割任务

以前，分割问题是通过两类方法来解决的：

交互式分割，用户通过迭代改进掩码来引导分割任务。
自动分割允许自动分割选择性对象类别，如猫或椅子，但需要大量的注释对象进行训练（即成千上万个分割猫的示例），以及计算资源和技术专长来训练分割模型，但这两种方法都没有提供一个通用的、完全自动的分割解决方案。

SAM在一个模型中同时使用交互式和自动分割。所提议的接口实现了灵活的使用方式，通过设计合适的提示（如点击、框或文本），可以实现各种分割任务。

SAM使用了一个包含超过十亿个掩码的广泛、高质量的数据集进行开发，这些掩码是作为该项目的一部分收集的，使其能够泛化到训练期间未观察到的新类型的对象和图像。因此，从业者不再需要收集他们的分割数据，并为其特定的用例量身定制模型。

这些能力使SAM能够在任务和领域之间进行泛化，这是其他图像分割软件之前从未做到过的。

SAM能力与用例

SAM具有强大的能力，使分割任务更加有效：

多样的输入提示：通过指导分割的提示，用户可以轻松执行不同的分割任务，无需额外的训练要求。您可以使用交互式点和框来应用分割，自动分割图像中的所有内容，并为模棱两可的提示生成多个有效的掩码。下图中我们可以看到使用输入文本提示对特定对象进行的分割。

分割任何物体模型：图像分割的基础模型四海第2张

与其他系统的集成：SAM可以接受来自其他系统的输入提示，例如将来从AR/VR头盔中获取用户的注视并选择对象。
可扩展输出：输出的掩码可以作为其他AI系统的输入。例如，对象掩码可以在视频中进行跟踪，启用图像编辑应用程序，提升到3D空间，或者甚至可以进行创造性的使用，如整理。
零样本泛化：SAM已经对对象进行了理解，使其能够在没有额外训练的情况下快速适应陌生对象。
多个掩码生成：当面临对被分割对象的不确定性时，SAM可以生成多个有效的掩码，为在现实世界中解决分割问题提供关键的帮助。
实时掩码生成：SAM可以在预先计算图像嵌入后实时为任何提示生成分割掩码，实现与模型的实时交互。

理解SAM：它是如何工作的？

分割任何物体模型：图像分割的基础模型四海第3张

自然语言处理和计算机视觉领域的最新进展之一是基础模型，通过“提示”使其能够对新的数据集和任务进行零样本和少样本学习。Meta AI的研究人员训练了SAM，使其能够针对任何提示返回有效的分割掩码，例如前景/背景点、粗略框/掩码或掩码、自由形式文本，或者任何指示图像中目标对象的信息。

有效的掩膜意味着即使提示可能涉及多个对象（例如：衬衫上的一个点可能代表它本身或穿着它的人），其输出也应该为一个对象提供一个合理的掩膜，从而通过提示为模型进行预训练并解决一般的下游分割任务。

研究人员观察到预训练任务和交互式数据收集对模型设计施加了特定的约束。最重要的是，实时模拟必须在Web浏览器中以高效的方式在CPU上运行，以允许标注者实时交互地使用SAM进行高效的注释。尽管运行时约束导致了质量和运行时约束之间的权衡，但在实践中，简单的设计产生了令人满意的结果。

SAM的内部机制是这样的：图像编码器为图像生成一次性嵌入，而轻量级编码器则可以将任何提示实时转换为嵌入向量。然后，这些信息来源通过轻量级解码器进行组合，根据使用SAM计算的图像嵌入预测分割掩膜，因此SAM可以在Web浏览器中为任何给定的提示生成分段，仅需50毫秒。

构建SA-1B：分割10亿个掩膜

构建和训练模型需要访问一组庞大而多样化的数据，在训练开始时这些数据并不存在。今天发布的分割数据集是迄今为止最大的。标注者使用SAM进行交互式图像注释，然后将这些新数据用于更新SAM，重复这个过程多次，以持续改进模型和数据集。

SAM使得收集分割掩膜比以往更快，每个交互注释的掩膜只需要14秒；这个过程只比注释边界框慢两倍，而使用快速注释界面注释边界框只需7秒。与之相比，大规模分割数据集的手动多边形掩膜注释（例如COCO数据集）需要大约10小时；而SAM模型辅助注释的速度更快；每个注释的掩膜的注释时间比之前的模型辅助大规模数据注释的注释时间快6.5倍。

交互式注释掩膜不足以生成SA-1B数据集，因此开发了一个数据引擎。该数据引擎包含三个“档位”，从辅助标注员开始，然后转向完全自动化的注释与辅助注释相结合，以增加收集到的掩膜的多样性，最后完全自动创建数据集的掩膜以进行规模扩展。

SA-1B的最终数据集包含超过11百万个受许可且保护隐私的图像上收集的超过11亿个分割掩膜，这是迄今为止任何现有分割数据集的4倍，根据人工评估研究。经过这些人工评估的验证，与较小样本的以前手动注释数据集相比，这些掩膜在质量和多样性方面表现出更高的水平。

SA-1B的图像来自多个国家的图像提供者，代表了不同的地理区域和收入水平。虽然某些地理区域的代表性仍然不足，但由于图像数量更多且覆盖范围更广，SA-1B提供了更多的代表性。

研究人员进行了针对模型在性别表达、肤色感知、人的年龄范围以及被呈现人物的感知年龄等方面的任何偏见的测试，发现SAM模型在各个群体之间的表现相似。他们希望这将使得在实际应用中，这项工作更加公平。

虽然SA-1B支持了研究成果，但它也可以为其他研究人员训练图像分割的基础模型。此外，这些数据可能成为具有附加注释的新数据集的基础。

未来工作与总结

Meta AI的研究人员希望通过分享他们的研究和数据集，加速图像分割和图像视频理解的研究。由于这个分割模型可以作为更大系统的一部分执行这个功能。

在本文中，我们介绍了什么是SAM以及它的功能和用例。之后，我们介绍了它的工作原理和训练方法，以便对该模型有一个概述。最后，我们总结了文章，并展望了未来的愿景和工作。如果您想了解更多关于SAM的信息，请阅读论文并尝试演示。

参考资料

Introducing Segment Anything: Working toward the first foundation model for image segmentation
SA-1B Dataset
Segment Anything

Youssef Rafaat是一名计算机视觉研究员和数据科学家。他的研究重点是为医疗应用开发实时计算机视觉算法。他还在市场营销、金融和医疗领域担任数据科学家超过3年。