见面提示扩散：一种用于在基于扩散的生成模型中实现上下文学习的人工智能框架

见面提示扩散：一种用于在基于扩散的生成模型中实现上下文学习的人工智能框架四海第1张

最先进的大型语言模型（LLM），包括BERT、GPT-2、BART、T5、GPT-3和GPT-4，是由最近在机器学习领域，尤其是在自然语言处理（NLP）领域的进展所开发出来的。这些模型已经被有效地应用于各种任务，包括文本生成、机器翻译、情感分析和问答。它们学习上下文的能力，通常被称为上下文学习，是这些LLM的新兴行为之一。像GPT-3这样具有上下文学习能力的LLM，可以通过条件化输入输出样本和新鲜查询输入来完成任务，而无需优化任何模型参数。

多种语言任务的预训练可以与上下文学习和精心设计的提示结构相结合，使得LLM能够成功地推广到它们从未遇到过的活动中。尽管上下文学习在NLP领域已经得到了广泛的研究，但在计算机视觉领域中几乎没有应用。要将上下文学习作为一种用于伟大视觉应用的标准技术来展示其实用性和潜力存在两个重要困难：1）创建一个有效的视觉提示比创建语言任务的提示更困难，因为它需要领域特定的输入输出对作为示例和图片搜索作为标准。2）在计算机视觉中，通常会为专门的任务训练大型模型，包括文本到图像生成、类别条件生成、分割、检测和分类。

这些庞大的视觉模型必须更加灵活以适应新的任务，并不适用于上下文学习。最近的一些尝试通过使用NLP的答案来解决这些问题。具体地说，当将示例照片、查询图像和输出图像融合为一个庞大的整体时，训练基于Transformer的图像修复模型来预测被屏蔽的输出图像。然而，将大尺寸的图像拼接在一起会显著增加计算开销，尤其是在高分辨率的情况下。本研究通过解决这两个问题，来探讨基于文本引导的扩散生成模型的上下文学习潜力。

为了在能够处理各种视觉-语言活动的视觉-语言提示下执行上下文学习，微软和德克萨斯大学奥斯汀分校的研究人员提出了一种新颖的模型架构，称为Prompt Diffusion。Prompt Diffusion在六个单独的视觉-语言任务中并行进行。具体地，他们利用他们的视觉-语言提示来描述一个通用的视觉-语言任务。然后，他们根据Stable Diffusion和ControlNet的设计灵感构建了Prompt Diffusion，它可以使用他们的视觉-语言提示作为输入。他们将Prompt Diffusion视为实现文本引导的扩散模型具备上下文学习能力的第一步。然后，它可以利用这些知识通过将连接重新映射到查询图像并包含语言指令来创建输出图像。更重要的是，跨多个任务的学习赋予了模型上下文学习的能力。Prompt Diffusion可以成功地推广到尚未观察到的多个新功能上。除了在训练期间表现良好的六个任务上，它还在熟悉和新的未见任务上表现出色。

从经验上看，Prompt Diffusion在关于上下文学习的熟悉和新的未见任务上表现出色。预计Prompt Diffusion的有效性将激发并推动更多关于基于扩散的上下文视觉学习的研究。以下是他们的主要贡献的摘要：

• 一种先进的视觉-语言提示设计，有效地实现了多种视觉-语言活动的融合。

• 使用Prompt Diffusion模型在学习和新的未见任务上进行高质量的上下文生成，这是第一个具备上下文学习能力的基于扩散的可适应视觉-语言基础模型。

• 在GitHub上可以找到Pytorch代码实现。