Press "Enter" to skip to content

数据、架构还是损失函数:对多模态Transformer成功起到了最大贡献的是什么?

将语言与视觉进行关联是现实世界人工智能系统的基本要素;它在各种任务(例如视觉问答)和应用(例如为视觉障碍者生成描述)中都非常有用。多模态模型(在图像-语言配对上进行预训练)旨在解决这个关联问题。最近的一系列模型,多模态变换器(例如Lu等人,2019年;Chen等人,2020年;Tan和Bansal,2019年;Li等人,2020年),在各种多模态基准测试中取得了最先进的性能,表明联合编码器变换器架构比以前的方法(如双编码器)更适合捕捉图像-语言配对之间的对齐。

数据、架构还是损失函数:对多模态Transformer成功起到了最大贡献的是什么? 四海 第1张

特别是,与没有模态之间交流的双编码器架构相比,多模态变换器(联合编码器)更具样本效率。在下面的图表中,我们可以看到,当在零样本图像检索上进行测试时,现有的多模态变换器(UNITER)与训练数据多100倍的大规模双编码器(CLIP)表现相似。

BOW-DE: Miech & Alayrac et al. Arxiv 2021, MMT: Hendricks et al. TACL 2021, UNITER: Chen et al. ECCV 2020, CLIP: Radford et al. Arxiv 2021, ALIGN: Jia et al. Arxiv 2021

在这项工作中,我们研究了多模态变换器在多模态预训练中的成功因素,包括注意力、损失和预训练数据。我们发现,多模态注意力,即语言和图像变换器相互关注,对于这些模型的成功至关重要。具有其他类型注意力的模型(即使具有更多的深度或参数)无法达到与浅层和较小的具有多模态注意力的模型相媲美的结果。此外,可以在没有图像(掩蔽区域建模)损失的情况下实现可比较的结果,这是最初提出的多模态变换器的一个重要发现。这表明我们目前的模型没有充分利用图像模态中的有用信号,可能是因为图像损失的制定。

我们还研究了多模态数据集的不同属性,例如其大小以及语言描述其对应图像的程度(噪声性质)。我们发现,数据集的大小并不总是能够预测多模态变换器的性能;其噪声水平和语言与评估任务的相似度都是重要的影响因素。这表明,尽管当前的趋势是从网络中收集噪声数据集,但筛选出噪声较小的图像-文本数据集仍然很重要。

总的来说,我们的分析显示,与双编码器架构相比(在相同数量的预训练数据下),多模态变换器更强大,主要是由于通过多模态注意力进行的交流。然而,在设计多模态模型时仍存在许多未解决的问题,包括更好的图像模态损失和对数据集噪声的鲁棒性。

Leave a Reply

Your email address will not be published. Required fields are marked *