麻省理工学院的研究人员创建了一个新的带注释的合成图像数据集，该数据集描绘了各种场景，以帮助机器学习模型理解场景中的概念

麻省理工学院的研究人员创建了一个新的带注释的合成图像数据集，该数据集描绘了各种场景，以帮助机器学习模型理解场景中的概念四海第1张

大规模预训练的视觉与语言模型在众多应用中展示出了非凡的性能，使得可以用无需指定固定的支持类别，而是通过（几乎任意的）自然语言查询进行零样本开放词汇推理。然而，最近的研究揭示了这些模型的一个根本缺陷。例如，它们无法理解超越名词的视觉语言概念（VLC），如非物体词语（例如属性、动作、关系、状态等）的意义，或者它们在组合推理方面的困难，如理解句子中词语顺序的重要性。

视觉与语言模型是强大的机器学习算法，可以学习将文本与图像匹配，当被要求生成视频标题或摘要时，它们展示出了非凡的结果。尽管这些模型擅长区分物体，但它们经常需要帮助理解概念，例如物体的属性或场景中物品的排列。例如，一个视觉与语言模型可能会看到图像中的杯子和桌子，但无法理解杯子在桌子上方的概念。

麻省理工学院的研究人员展示了一种利用计算机生成数据来帮助视觉与语言模型克服这个缺陷的新技术。具体而言，他们提出增强生成的视觉和文本数据的VLC和组合性方面，然后使用这些数据来微调VL模型，指导它们更加关注这些特征。此外，与实际数据始终伴随的隐私问题相比，合成数据不仅本质上是免费和无限可扩展的，而且可以不受隐私问题的限制。创建能够有效用于增强在大量实际数据上预训练的VL模型的VLC和组合性方面的合成数据，还面临其他技术挑战。与大多数以前关于生成合成视觉数据的工作不同，他们必须开发描述场景的组合元素的图像和文本。此外，他们生成利用真实物理3D模拟的合成视频，例如多样的3D环境和多样的3D物体、人体动作和动作资产，与物体的交互以及不同的摄像机角度。

以前的工作利用动作资产生成合成数据，但视觉数据没有伴随文本标题，并且需要考虑组合性。研究人员为合成视觉概念（SyViC）做出贡献，这是一个大规模（百万级）生成的合成VL数据集，具有丰富的文本标题，可以通过数据合成代码轻松扩展，以及所有先前生成的百万级合成数据。

贡献

研究人员贡献了SyViC – 一个百万级的合成数据集，具有丰富的文本注释，旨在增强VL模型的VLC理解和组合推理能力，以及其合成和潜在可扩展性的方法和生成代码库2。
有效的通用VL模型微调，利用SyViC数据改善强大的预训练VL模型的特性，而不损害其零样本性能。
实验结果和全面的消融研究表明，在最新的VL-Checklist、ARO和Winoground基准测试中，VLC理解和组合推理有显著改善（在某些情况下超过10%），并在最流行的CLIP模型及其衍生模型（例如最新的CyCLIP）上得到验证。

结果

使用所提出的方法和SyViC合成数据生成了所有模型的变体。在对SyViC进行微调之前，将每个模型与其分别在大规模实际数据上训练的源模型进行了比较。根据研究人员的发现，无论是SyViC合成数据还是提出的微调方法，都相对于各自的源基线表现出显著的改进。此外，研究人员还展示了在VL-Checklist和ARO基准测试中为CLIP获得的个别VLC指标改进，分别达到9.1%和12.6%的绝对改进。这证明了该方法和SyViC合成数据在提高VL模型的VLC理解和组合推理能力方面的效率和潜力。

在这里尝试 https://synthetic-vic.github.io/

局限性

尽管研究人员在三个不同的基准测试中获得了相当有希望的结果，但他们的工作还存在一些限制。例如，图形模拟器对照片亮度、传感器噪声和反射函数的模型与实际世界相比较简化，可能影响颜色恒定性的稳健性。更复杂的领域适应和渲染技术可能需要进一步提高结果。此外，对合成数据的缩放规律进行更深入的研究将是充分发挥该工作潜力的一种优秀方式。

总结

大型视觉和语言模型决定了计算机视觉和多模态感知的现状，在多个困难的基准测试中取得了尖端的成果。然而，现有模型在组合推理和理解物体名词之外的概念（如属性和关系）方面需要帮助。这是第一次研究合成数据是否可以减轻这些不足。麻省理工学院的研究人员提出了一个数据生成流水线，用于创建一个百万级的合成图像数据集和相应的标题，并提供了一种高效的微调策略和全面的分析，以提高多模态模型的组合和概念理解能力，同时不影响它们的零样本分类性能。