准确地分割多个对象对于各种场景理解应用非常重要,例如图像/视频处理、机器人感知和AR/VR。最近发布了Segment Anything Model (SAM),这是一个广泛的图像分割基本视觉模型。它使用十亿级别的掩码标签进行训练。SAM可以使用一系列点、边界框或粗略掩码作为输入,在多个上下文中分割各种对象、组件和可视结构。它的零-shot分割能力引发了快速的范式变化,因为它们可以在许多应用程序中仅使用一些基本提示。
尽管其表现出色,但SAM的分割结果仍然需要改进。SAM存在两个重要问题:1)粗糙的掩码边缘,经常遗漏细小物体结构的分割,如图1所示。2)在困难情况下,错误的预测、损坏的掩码或显著的不准确性。这通常与SAM的误读细小结构有关,例如图中右上角的风筝线。基本分割方法(如SAM)的应用和效果受到这些错误的严重限制,特别是对于自动注释和图像/视频编辑作业,其中极其精确的图像掩码至关重要。
图1:比较了SAM和我们的HQ-SAM的预测掩码,使用了单个红色框或对象上的多个点的输入提示。具有极其精确边界的HQ-SAM生成明显更详细的结果。在最右边的一列中,SAM误读了风筝线的细小结构,并为输入框提示生成了大量的错误和破损孔。
来自苏黎世联邦理工学院和香港科技大学的研究人员建议HQ-SAM,它保持了原始SAM的强大零-shot能力和灵活性,同时能够预测非常准确的分割掩码,即使在极其困难的情况下(参见图1)。他们建议对SAM进行小的调整,添加少于0.5%的参数,以增加其高质量分割的能力,同时保持效率和零-shot性能。直接调整SAM解码器或添加新的解码器模块会对零-shot分割的一般布局造成严重的影响。因此,他们建议HQ-SAM设计完全保留零-shot效率,与并重用当前学习的SAM结构相集成。
除了原始提示和输出令牌外,他们还创建了一个可学习的HQ-Output Token,馈送到SAM的掩码解码器中。与原始输出令牌相比,他们的HQ-Output Token及其相关的MLP层被教授预测高质量的分割掩码。其次,他们的HQ-Output Token在改进的特征集上运行,以生成精确的掩码信息,而不仅仅是使用SAM的掩码解码器功能。他们将SAM的掩码解码器特征与其ViT编码器的早期和晚期特征图结合使用,以使用全局语义上下文和细粒度的本地特征。
在训练期间,完整的预训练SAM参数被冻结,只更新HQ-Output Token、相关的三层MLP和一个小型特征融合块。学习准确分割所需的是一个具有复杂几何形状的各种对象的精确掩码注释的数据集。使用11M张照片和类似于SAM的模型自动创建的1.1亿个掩码的SA-1B数据集来训练SAM。然而,图1中SAM的性能表明,使用这个大型数据集具有重大的经济后果。它无法产生研究所需的高质量掩码生成。
因此,他们创建了HQSeg-44K,一个新的数据集,包括44K个高精度细粒度图像掩码注释。他们将六个现有的图像数据集与非常精确的掩码注释结合起来,以创建HQSeg-44K,涵盖了1000多个不同的语义类别。由于数据集较小,以及他们简单的集成设计,HQ-SAM可以在8个RTX 3090 GPU上进行训练,时间不到4小时。他们进行了严格的定量和定性实验研究,以验证HQ-SAM的有效性。
他们在来自各种下游任务的九个不同分割数据集上将HQ-SAM与SAM进行了比较,其中有七个在零-shot转移协议下,包括COCO、UVO、LVIS、HQ-YTVIS、BIG、COIFT和HR-SOD。这一彻底的分析表明,与SAM相比,所提出的HQ-SAM可以制造出更高质量的掩模,同时仍具有零-shot能力。他们的GitHub页面上有一个虚拟演示。
通过引入对原始SAM的可忽略开销,他们提出了第一个高质量的零-shot分割模型。
查看论文和GitHub。不要忘记加入我们的23k+ ML SubReddit、Discord频道和电子邮件通讯,在这里我们分享最新的AI研究新闻、酷炫的AI项目等等。如果您对上述文章有任何问题或我们漏掉了任何东西,请随时发送电子邮件至Asif@marktechpost.com
查看AI工具俱乐部中的100个AI工具
这篇文章最初发表在MarkTechPost上。