Press "Enter" to skip to content

斯坦福大学的研究人员引入了Gisting:一种用于语言模型中高效提示压缩的新技术

斯坦福大学的研究人员引入了Gisting:一种用于语言模型中高效提示压缩的新技术 四海 第1张斯坦福大学的研究人员引入了Gisting:一种用于语言模型中高效提示压缩的新技术 四海 第2张

模型专业化涉及将预训练的机器学习模型适应特定的任务或领域。在语言模型(LMs)中,模型专业化对于改进其在摘要、问答、翻译和语言生成等各种任务中的性能至关重要。将语言模型专门用于特定任务的两个主要过程是指令微调(将预训练模型适应新任务或任务集)和模型蒸馏(从预训练的“教师”模型转移知识到更小、专门的“学生”模型)。提示是LM专业化领域的一个关键概念,因为它提供了引导模型朝特定行为的方式,允许更有效地使用有限的训练数据,并且对于实现最先进的性能至关重要。压缩提示是一种研究中的技术,希望能够在计算、内存和存储方面节省大量开销,同时不会对输出的总体性能或质量产生显著降低。

本文由斯坦福大学的研究人员提出,提出了一种名为gisting的提示压缩新技术,该技术训练了一个LM将提示压缩为更小的“要点”标记集。为了降低提示的成本,可以使用微调或蒸馏等技术训练一个模型,该模型的行为类似于没有提示的原始模型,但在这种情况下,模型必须针对每个新提示进行重新训练,这远非理想。然而,gisting的思想是使用元学习方法从提示中预测要点标记,这不需要为每个任务重新训练模型,并且可以在没有额外训练的情况下实现对未见指令的泛化。这将降低计算成本,并允许压缩、缓存和重用提示以提高计算效率。它还允许用户在有限的上下文窗口中容纳更多内容。

作者们尝试了一种实现这种模型的简单方法-他们使用LM本身(利用其现有的知识)在指令微调过程中预测要点标记,同时修改Transformer注意力掩码。给定一个(任务、输入)对,他们在任务和输入之间添加要点标记,并将注意力掩码设置如下:要点标记之后的输入标记不能与要点标记之前的任何提示标记关联(但它们可以与要点标记关联)。由于输入和输出不能参考提示,这迫使模型将提示中的信息压缩到要点标记之间。为了训练要点模型,他们需要一个包含各种任务的数据集,因此他们创建了一个称为Alpaca+的数据集,该数据集结合了两个现有的指令微调数据集(斯坦福Alpaca和Self-Instruct),总共超过130k个示例。然后,他们保留了3个验证拆分,以便在训练后验证模型,其中包括已见、未见和手工制作的人类提示。通过这种方式,他们能够测试对未见指令的泛化性能,其中人类拆分提出了更强的泛化挑战。他们还使用了多种LM架构(即LLaMA-7Bm、仅解码器的GPT风格模型和FLAN-T5-XXL),并使用不同数量的要点标记(1、2、5或10)训练要点模型。然而,结果显示,模型对于要点标记的数量通常不敏感,有些情况下甚至显示出更多标记实际上对性能有害。因此,他们在后续实验中使用了单个要点模型。

为了评估提示压缩的质量,他们将性能与正面控制进行了校准,正面控制实际上是标准指令微调,它提供了性能的上限,并且负面控制中模型完全无法访问指令,导致生成随机要点标记,这提供了性能的下限。为了将模型的输出与正面控制进行比较并测量胜率,他们要求ChatGPT选择哪个响应更好,并解释其推理过程。他们还使用了一个称为ROUGE-L的简单词汇重叠统计指标(用于衡量生成文本与人类编写的指令之间的相似性)。50%的胜率表示模型的质量与不进行提示压缩的模型相当。

斯坦福大学的研究人员引入了Gisting:一种用于语言模型中高效提示压缩的新技术 四海 第3张

研究结果显示,在已见指令上,概要模型的胜率非常接近正向对照模型,LLaMA为48.6%,FLAN-T5为50.8%。更重要的是,他们能够表明概要模型在未见提示上具有竞争力的泛化能力,LLaMA为49.7%,FLAN-T5为46.2%。只有在最具挑战的人类分割上,他们的胜率略微下降(但仍具竞争力),LLaMA为45.8%,FLAN-T5为42.5%。FLAN-T5的表现稍差以及特定的失败案例为未来的研究提供了更多的假设。

研究人员还调查了通过概要提取可能实现的效率提升。结果非常令人鼓舞,概要缓存导致FLOPs减少40%,墙上时钟时间比未优化的模型降低4-7%。尽管这些改进在仅有解码器的语言模型中较小,研究人员还证明了概要模型使未见提示的压缩率提高了26倍,为输入上下文窗口提供了相当大的额外空间。

总的来说,这些发现说明了概要提取对于增强专用语言模型的有效性和效率的巨大潜力。作者还提出了几个有前途的概要提取后续工作方向。例如,他们指出,从概要提取中获得的最大计算和效率收益将来自于对更长提示的压缩,并且“概要预训练”可以通过首先学习压缩任意自然语言段落来改善压缩性能。

Leave a Reply

Your email address will not be published. Required fields are marked *