“弗拉明戈和DALL-E互相理解吗？探索图像描述和文本到图像生成模型之间的共生关系”

“弗拉明戈和DALL-E互相理解吗？探索图像描述和文本到图像生成模型之间的共生关系” 四海第1张

多模态研究近来在文本和视觉的计算机理解方面取得了重大进展。通过像DALL-E和稳定扩散（SD）这样的文本到图像生成模型，可以将现实世界环境中的复杂语言描述转化为高保真度的视觉图像。另一方面，像Flamingo和BLIP这样的图像到文本生成模型展示了理解图片中复杂语义的能力，并提供连贯的描述。尽管文本到图像生成和图片描述任务非常相关，但它们通常被独立研究，这意味着这些模型之间的交互需要被探索。文本到图像生成模型和图像到文本生成模型能否相互理解是一个有趣的话题。

为了解决这个问题，他们使用了一个称为BLIP的图像到文本模型为特定图像创建文本描述。然后，将这个文本描述输入到一个名为SD的文本到图像模型中，生成一个新的图像。他们认为，如果生成的图片与源图片相似，BLIP和SD可以相互交流。通过共同的理解，每一方对潜在理念的理解能力可以得到提高，从而实现更好的描述和图像合成。这个概念在图1中得到了展示，顶部标题导致了对原始图片更准确的重建，并且比底部标题更好地代表了输入图片。

“弗拉明戈和DALL-E互相理解吗？探索图像描述和文本到图像生成模型之间的共生关系” 四海第3张 — https://arxiv.org/abs/2212.12249

来自慕尼黑大学，西门子公司和牛津大学的研究人员开发了一个重建任务，其中DALL-E使用Flamingo为给定的图像生成描述，从而合成一张新的图片。他们创建了两个重建任务，文本-图像-文本和图像-文本-图像，来测试这个假设（见图1）。对于第一个重建任务，他们计算使用预训练的CLIP图像编码器提取的图像特征之间的距离，以确定重建的图片和输入图片的语义相似度。然后，将生成的文本的质量与人工标注的标题进行比较。他们的研究表明，生成的文本的质量影响重建的表现。这导致他们的第一个发现：能够重建原始图片的描述是图片的最佳描述。

类似地，他们创建了相反的任务，SD从文本输入创建一张图片，然后BLIP从创建的图片创建文本。他们发现，产生原始文本的图片是最好的文本插图。他们假设在重建过程中，输入图片的信息在文本描述中被准确地保留下来。这个有意义的描述导致了对成像模态的忠实恢复。他们的研究为细调提供了一个独特的框架，使文本到图像和图像到文本模型更容易相互交流。

具体来说，在他们的范式中，生成模型从重建损失和人工标签中获得训练信号。一个模型首先为另一种模态的特定图片或文本创建一个表示，然后不同的模型将这个表示翻译回输入模态。重建组件创建一个正则化损失，来引导初始模型的细调。他们以这种方式得到了自我监督和人类监督，增加了生成会导致更准确的重建的可能性。例如，图像字幕模型需要偏好不仅与标记的图像-文本配对相对应的标题，还需要偏好那些可以产生可靠重建的标题。

相互代理通信与他们的工作密切相关。代理之间的主要信息交流方式是语言。但是，他们如何确保第一个和第二个代理对猫或狗的定义是一样的呢？在这项研究中，他们要求第一个代理检查一张图片并生成描述它的句子。在获得文本后，第二个代理根据它来模拟一张图片。后一阶段是一种具体化过程。根据他们的假设，如果第二个代理对输入图片的模拟接近第一个代理接收到的输入图片，那么通信就是有效的。从根本上说，他们评估了语言的有用性，语言作为人类的主要交流方式。特别是，他们的研究中使用了新建立的大规模预训练图片字幕模型和图像生成模型。多项研究证明了他们提出的框架在无需训练和细调情况下对各种生成模型的好处。特别是，在无需训练的范式中，他们显著提高了字幕和图片的生成，而在细调中，两种生成模型都取得了更好的结果。

以下是他们的关键贡献的概要：

• 框架：据他们所知，他们是第一个研究如何通过易于理解的文本和图片表示来传达传统的图像到文本和文本到图像生成模型的人。相比之下，类似的工作通过嵌入空间隐式地集成了文本和图片的创建。

• 发现：他们发现评估文本到图像模型创建的图片重建可以帮助确定字幕的写作质量。能够最准确重建原始图片的字幕应该用于该图片。类似地，最佳的字幕图像是能够最准确重建原始文本的图像。

• 增强：根据他们的研究，他们提出了一个全面的框架来改进文本到图像和图像到文本模型。文本到图像模型计算的重建损失将用作细调图像到文本模型的正则化，图像到文本模型计算的重建损失将用于细调文本到图像模型。他们研究并确认了他们方法的可行性。