Press "Enter" to skip to content

一项新的人工智能研究引入了方向性刺激提示(DSP):一种新的提示框架,以更好地指导LLM生成所需的摘要

一项新的人工智能研究引入了方向性刺激提示(DSP):一种新的提示框架,以更好地指导LLM生成所需的摘要 四海 第1张一项新的人工智能研究引入了方向性刺激提示(DSP):一种新的提示框架,以更好地指导LLM生成所需的摘要 四海 第2张

自然语言处理(NLP)近年来发生了一次范式转变,引入了大型语言模型(LLMs),在各种NLP任务中表现优于之前相对较小的语言模型(LMs),如GPT-2和T5 Raffel等。提示是使用LLMs执行各种任务的事实上的方法,通过使用上下文中的自然语言指令引导LLMs生成所需的输出,而无需对参数进行更新,与传统的微调范式相反,其中LMs的参数可以针对每个下游任务进行更新。

虽然这种提示模式使得LLMs在零射击或少射击环境中在各种任务上表现出色,但它们在某些特定的下游任务上的表现仍然需要改进,并且需要额外的细化,尤其在训练数据可用的情况下。然而,由于大多数LLMs只提供黑盒推理API并且微调成本高昂,大多数用户和学者无法直接优化这些LLMs。因此,必须解决的一个困难问题是如何有效地提高LLMs在特定下游任务上的性能,有时只有有限的训练实例。来自加利福尼亚大学圣巴巴拉分校和微软的一项新研究提出了使用微小可调整LM(RL)增强冻结的黑盒LLM在下游任务上的架构,称为定向刺激提示(DSP)。

一项新的人工智能研究引入了方向性刺激提示(DSP):一种新的提示框架,以更好地指导LLM生成所需的摘要 四海 第3张
来源:https://arxiv.org/pdf/2302.11520.pdf | 图1:使用通常的提示方法和我们提出的定向刺激提示的摘要任务所使用的时间比较。我们的DSP使用可调整的策略LM生成刺激,该刺激在此示例中是关键词,然后将LLM定向为提供更好的得分或其他指标(以蓝色突出显示)的所需摘要。

更准确地说,对于每个输入文本,一个微小的LM(称为策略LM)学习提供一系列离散的令牌作为指向性刺激,这些刺激可能提供有关输入样本的某些信息或指令,而不是作为工作的通用提示。为了将LLM的生成定向到所需的目标,例如更高的性能度量得分,然后将创建的刺激与原始输入混合并提供给LLM。他们最初使用具有预训练LM的监督微调(SFT),利用少量收集的训练样本。训练的目标是最大化奖励,定义为基于策略LM生成的刺激的LLM生成的下游性能度量得分。经过进一步的优化以探索更好的刺激,经过改进的LM在RL中初始化策略LM。

图1描述了摘要任务的一个示例。为了帮助LLM基于关键词生成所需的摘要,关键词充当刺激(提示)。可以使用ROUGE等评估指标分数对策略LM进行优化,以激励它提供指导LLM生成更好摘要的关键词。虽然LLMs具有出色的生成能力,但它们经常显示出不受欢迎的行为,需要对预期的生成特征和某些下游任务的方向进行细粒度的指导。这是他们提出的方法的基础。微小的策略LM可以作为指向性刺激生成一系列令牌,以向LLM提供样本级的细粒度指导,以实现预期的目标,但不能生成类似人类语言的文本。

与以往通过提示工程/优化来找到最佳提示的研究不同,RL提供了将优化对象(例如生成刺激的小型策略LM)与LLM生成定义的优化目标之间的自然桥梁。他们的方法试图为每个“问题”提供“提示”或“线索”。它还不同于鼓励LLM在解决推理任务时生成中间推理步骤的链式思维提示。他们的方法使用一个小的可调整模型来控制和引导LLM,并针对不仅有一个正确的“答案”的生成任务进行优化。他们在摘要和对话回复生成任务上评估了他们的框架。

创建刺激的小策略LM是一个优化的对象,但LLM的生成确定了优化目标。强化学习为弥合这个差距提供了简单的方法。与以前的研究不同,这次研究尝试通过使用提示工程或优化来澄清“问题”。他们的策略努力为每个“问题”提供“提示”或“线索”。此外,它与思维链提示不同,后者鼓励大脑在完成需要逻辑的任务时自行推理出中间步骤。他们的方法针对需要生成多个有效“响应”的任务,并采用一个简单可调的模型来调节和指导LLM。他们评估了他们的框架,用750M Flan-T5-large作为策略LM和175B Codex作为LLM进行测试。根据测试结果,当Codex依赖于经过调整的T5生成的指示时,其在下游任务上的性能显著提高。摘要应包含的关键词被用作摘要任务的指导刺激。使用从CNN/Daily Mail数据集中提取的2,000个样本训练的T5,Codex的性能已经提高了7.2%。

为了开发用于500个MultiWOZ数据集对话的目标回复背后的预期意义的对话行为,他们训练了策略LM。由于策略LM生成的对话行为,Codex的总分提高了52.5%。它的表现与先前使用完整训练数据(8438个对话)训练的系统一样好或更好。

Leave a Reply

Your email address will not be published. Required fields are marked *