

计算机视觉中最具挑战和关键性的任务之一是实例分割。在图像或三维点云中精确描绘和分类对象的能力对于各种应用至关重要,从自动驾驶到医学图像分析。多年来,在开发最先进的实例分割模型方面取得了巨大进展。然而,这些模型通常需要应对与其训练分布不同的各种真实场景和数据集。将分割模型调整以处理这些分布范围之外(OOD)的情况的挑战推动了创新研究。一种引起重大关注的开创性方法是Slot-TTA(测试时间调整)。
在快速发展的计算机视觉领域中,实例分割模型取得了显著进展,使机器能够识别和精确分割图像和三维点云中的对象。这些模型已成为许多应用的基础,从医学图像分析到无人驾驶汽车。然而,它们面临着一个常见而严峻的对手-适应各种真实世界的场景和超出其训练数据范围的数据集。无法无缝地从一个领域过渡到另一个领域在有效部署这些模型方面构成了重大障碍。
卡内基梅隆大学、Google Deepmind和Google Research的研究人员推出了一种突破性解决方案,称为Slot-TTA,以解决这一挑战。这种创新方法旨在实现实例分割的测试时间调整(TTA)。Slot-TTA将基于槽位的图像和点云渲染组件的能力与最先进的分割技术相结合。Slot-TTA的核心思想是使实例分割模型能够动态适应OOD场景,从而显著提高其准确性和多功能性。
Slot-TTA基于调整的兰德指数(ARI)作为其主要分割评估指标。它在一系列数据集上进行了严格的训练和评估,包括多视图姿势的RGB图像、单视图的RGB图像和复杂的三维点云。Slot-TTA的区别特征在于其能够利用重建反馈进行测试时间调整。这一创新涉及对以前未见过的视点和数据集的分割和渲染质量进行迭代改进。
在多视图姿势的RGB图像中,Slot-TTA显示出强大的竞争力。通过对MultiShapeNetHard(MSN)数据集进行全面评估,证明了其适应性。该数据集包含超过51,000个ShapeNet对象,精心渲染在真实世界的HDR背景下。MSN数据集中的每个场景都有九个姿势RGB渲染图像,被策略性地分为Slot-TTA的训练和测试的输入和目标视图。研究人员特别注意确保训练集和测试集之间的对象实例之间没有重叠,并且场景中存在的对象数量没有重叠。这种严格的数据集构建对于评估Slot-TTA的鲁棒性至关重要。
在评估中,Slot-TTA与几个基准进行了比较,包括Mask2Former、Mask2Former-BYOL、Mask2Former-Recon和Semantic-NeRF。这些基准是用于比较Slot-TTA在训练分布内外的性能的基准。结果令人瞩目。
首先,Slot-TTA在OOD场景中使用TTA超过了Mask2Former,这是一种最先进的2D图像分割器。这表明Slot-TTA在适应各种真实场景方面的优势。
其次,在Mask2Former-BYOL中添加来自Bartler等人(2022年)的自监督损失未能带来改进,突显出并非所有TTA方法都同样有效。
第三,Slot-TTA没有分割监督,仅用于类似于OSRT(Sajjadi等人,2022a)的跨视图图像合成的变体,与像Mask2Former这样的有监督分割器相比效果显著下降。这一观察结果强调了在训练过程中进行分割监督对于有效的TTA的必要性。
Slot-TTA的强大之处还包括合成和分解新颖的未见RGB图像视图。使用与之前相同的数据集和训练-测试划分,研究人员评估了Slot-TTA的像素精确重构质量和分割ARI准确性,用于五个新颖的未见视点。此评估包括在TTA训练期间未见过的视图。结果令人震惊。
Slot-TTA在这些未知视点上的渲染质量显著提高,展示了它在新颖场景中增强分割和渲染质量的能力。相比之下,强大的竞争对手Semantic-NeRF在这些未知视点上很难推广,突出了Slot-TTA的适应性和潜力。
总之,Slot-TTA在计算机视觉领域代表了一次重大飞跃,解决了将分割模型适应多样的现实场景的挑战。通过结合以槽为中心的渲染技术、先进的分割方法和测试时适应性,Slot-TTA在分割准确性和多功能性方面取得了显著的改进。这项研究不仅揭示了模型的局限性,还为计算机视觉领域的未来创新铺平了道路。Slot-TTA承诺在不断变化的计算机视觉领域提升实例分割模型的适应性。