🚀 “MMICL: 用多模态上下文学习增强视觉-语言模型” 论文解读。
有时,只需清理混乱的多模态人工智能数据集,就能实现全新的 SOTA 模型。我们将看看来自中国和华盛顿大学的研究人员撰写的全新 MMICL 论文:《MMICL: 用多模态上下文学习增强视觉-语言模型》[1]。
该论文不再关注简单的图像到文本任务,例如图像描述或视觉问题回答,而是致力于设计一个在复杂和真实的多模态场景中表现出色的模型,其中图像和文本交织在一起。
例如案例 (a) 展示了用户向人工智能询问描述图片中猫的图像时,直接使用同一图片的元素来引用原始图片的部分。或者,在案例 (b) 中,我们要求人工智能逻辑地连接两个不同的图片,这与只看一张图片回答一个问题非常不同。在案例 (e) 中进一步展开,我们可以看到模型在查看视频的帧时如何理解图片之间的时间关系。而如果我们看 (f) 的话,模型也能很好地理解复杂的文本-图像引用,即它知道哪些图片是图像 0、1、2 和 3。
架构和训练
那么,模型架构是怎样的呢?在我看来,主要贡献是新的数据集,我们很快就会介绍。所以模型架构本身并不是很新颖。它与 BLIP-2 [2] 中的相同。
我们有一个冻结的图像编码器,例如 ViT,它生成图像特征。然后,将这些图像特征通过 Q-Former 和全连接层传递,将图像特征转换为视觉提示,即对齐和映射以使其能够……