“见面语义-SAM：基于用户输入，在任何所需的粒度上对图像进行分割并识别对象的通用图像分割模型”

“见面语义-SAM：基于用户输入，在任何所需的粒度上对图像进行分割并识别对象的通用图像分割模型” 四海第1张

人工智能近年来取得了巨大的进步。其中，大型语言模型的引入引起了广泛关注，因为它具有令人难以置信的模仿人类能力。这些模型不仅在语言处理方面取得了成功，还在计算机视觉领域取得了成就。尽管AI系统在自然语言处理和可控图像生成方面取得了显著成就，但包括通用图像分割在内的像素级图像理解领域仍存在一定的局限性。

图像分割是将图像分割为不同部分的技术，取得了很大的改进，但要创建一个能处理不同粒度的各种图像的通用图像分割模型仍在讨论中。在该领域取得进展的两个主要挑战是充足的训练数据的可用性和模型设计的灵活性限制。现有方法通常使用单输入、单输出的流水线，无法预测不同粒度的分割掩码并处理不同的细节级别。此外，扩展既具有语义知识又具有粒度知识的分割数据集是昂贵的。

为了解决这些限制，一个研究团队提出了Semantic-SAM，一种基于用户输入的通用图像分割模型，可以在任意所需的粒度上对对象进行分割和识别。该模型能够为对象和部分提供语义标签，并根据用户的点击预测不同粒度的掩码。Semantic-SAM的解码器架构采用了多选择学习策略，使模型具备处理多个粒度的能力。每个点击由多个查询表示，每个查询具有不同的嵌入级别。这些查询通过与不同粒度的真实掩码学习。

该团队分享了Semantic-SAM如何通过使用解耦的部件和对象分类策略来解决语义意识问题。该模型使用共享的文本编码器分别对对象和部件进行编码，从而实现不同的分割过程，并根据输入类型调整损失函数。这种策略确保了模型能够处理来自SAM数据集（该数据集缺少一些分类标签）以及来自通用分割数据的数据。

该团队结合了七个代表不同粒度的数据集，以增强语义和粒度，包括SA-1B数据集、部分分割数据集如PASCAL Part、PACO和PartImagenet，以及通用分割数据集如MSCOCO和Objects365。数据格式已重新调整以符合Semantic-SAM的训练目标。

经过评估和测试，Semantic-SAM表现出比现有模型更优异的性能。当与交互式分割技术（如SA-1B可提示分割和COCO全景分割）结合使用时，性能显著提高。该模型实现了惊人的2.3个框AP增益和1.2个掩码AP增益。在粒度完整性方面，它比SAM表现更好，超过3.4个1-IoU。

Semantic-SAM绝对是图像分割领域的创新进展。该模型通过融合通用表示、语义意识和粒度丰富性，为像素级图像分析创造了新的机会。