图像分割是一项基本的计算机视觉任务,其中将图像划分为有意义的部分或区域。就像将一张图片分成不同的部分,使计算机能够识别和理解图像内的独立对象或区域。这个过程对于各种应用非常重要,从医学图像分析到自动驾驶汽车,因为它使计算机能够像人类一样解释和与视觉世界互动。
分割基本上可以分为两个主题:语义分割和实例分割。语义分割意味着标记图像中的每个像素所属的对象类型,后者则是计算相同类型的独立对象的数量,即使它们彼此靠近。
然后,有分割之王:全景分割(panoptic segmentation)。它结合了语义分割和实例分割的挑战,旨在预测不重叠的掩模,每个掩模与其相应的类别标签配对。
多年来,研究人员在改进全景分割模型的性能方面取得了显著进展,主要关注全景质量(PQ)。然而,一个基本的挑战限制了这些模型在实际场景中的应用:由于对细粒度数据集的注释成本高昂,语义类别的数量限制。
这是一个重大问题,可以想象到。要检查数千张图像并标记其中的每个对象是非常耗时的。如果我们能够以某种方式自动化这个过程会怎么样?如果我们能够找到一个统一的方法呢?是时候见识一下FC-CLIP了。
FC-CLIP是一个统一的单阶段框架,解决了上述限制。它具有革命性的潜力,可以改进全景分割,并扩展其在开放词汇情景下的适用性。
为了克服封闭词汇分割的挑战,计算机视觉界探索了开放词汇分割的领域。在这种范式中,使用自然语言中表示的类别名称的文本嵌入作为标签嵌入。这种方法使模型能够对更广泛的词汇进行分类,显著增强其处理更广泛类别的能力。通常会使用预训练的文本编码器来确保提供有意义的嵌入,使模型能够捕捉对于开放词汇分割至关重要的词语和短语的语义细微差别。
CLIP和ALIGN等多模态模型在开放词汇分割中表现出巨大的潜力。这些模型利用它们从大量互联网数据中学习对齐的图像-文本特征表示的能力。最近的方法,例如SimBaseline和OVSeg,已经将CLIP适应于开放词汇分割,利用了两阶段框架。
虽然这些两阶段方法取得了相当大的成功,但它们本质上存在低效和低效的问题。为了获得掩码生成和CLIP分类需要单独的骨干网络,增加了模型的大小和计算成本。此外,这些方法通常在不同的输入尺度上执行掩码分割和CLIP分类,导致结果不理想。
这引出了一个关键问题:我们能否将掩码生成器和CLIP分类器统一到单一阶段的框架中,用于开放词汇分割?这样的统一方法可能在流程中提高效率和效果。
这个问题的答案就在于FC-CLIP。 这个开创性的单阶段框架无缝地整合了掩码生成和CLIP分类,它是建立在一个共享的冻结卷积CLIP骨干之上的。FC-CLIP的设计基于一些聪明的观察:
1. 预训练的对齐:冻结的CLIP骨干确保预训练图像文本特征对齐保持完好,从而允许进行超词典分类。
2. 强大的掩码生成器:通过添加轻量级像素解码器和掩码解码器,CLIP骨干可以充当一个强大的掩码生成器。
3. 分辨率的泛化:随着输入尺寸的增加,卷积CLIP表现出更好的泛化能力,使其成为密集预测任务的理想选择。
采用单个冻结的卷积CLIP骨干的结果是一个设计优雅简单且高度有效的模型。与先前最先进的模型相比,FC-CLIP需要的参数更少,训练时间更短,具有更低的计算成本,使其非常实用。