Press "Enter" to skip to content

微软AI发布了LLMLingua:一种独特的快速压缩技术,可用于压缩大型语言模型(LLMs)的提示,以加快推理速度

鉴于大型语言模型(LLM)具备较强的概括和推理能力,它们显著地提升了人工智能(AI)社区的水平。这些模型在自然语言处理(NLP)、自然语言生成(NLG)、计算机视觉等方面展示了令人瞩目的能力。然而,包括语境学习(ICL)和思维链(CoT)提示在内的新发展,导致了使用较长提示的部署,有时甚至超过几万个令牌。这在模型推理方面带来了成本效益和计算效率的问题。

为了克服这些挑战,微软公司的研究团队推出了LLMLingua,一种独特的粗粒度快速压缩技术。LLMLingua的主要目标是最小化与处理长提示相关的开销,并加速模型推理。为此,LLMLingua采用了一些重要策略,包括以下几点。

  1. 预算控制器:创建了一个动态预算控制器,用于分配压缩比率给原始提示的各个部分。这确保提示的语义完整性在大量压缩比率下仍然保持。
  1. 令牌级迭代压缩算法:将令牌级迭代压缩算法集成到LLMLingua中。这种技术通过捕捉压缩元素之间的相互依赖关系,实现了更复杂的压缩,同时保留了提示的关键信息。
  1. 基于指令调整的方法:该团队提出了一种基于指令调整的方法,以解决语言模型之间分布不匹配的问题。调整语言模型的分布可以提高用于快速压缩的小语言模型与预期的LLM之间的兼容性。

研究团队使用来自不同情况的四个数据集进行了分析和实验,以验证LLMLingua的实用性。这些数据集包括推理的GSM8K和BBH、对话的ShareGPT以及摘要的Arxiv-March23。结果表明,该方法在每种情况下都取得了最先进的性能。结果甚至显示,LLMLingua可以在牺牲很少性能的情况下,实现高达20倍的显著压缩。

实验中使用的小语言模型是LLaMA-7B,封闭式LLM是GPT-3.5-Turbo-0301。LLMLingua在最大压缩比20倍时超越了以前的压缩技术,在保留推理、摘要和讨论能力方面表现出了韧性、经济性、高效性和可恢复性。

LLMLingua的有效性在多个封闭式LLM和小语言模型中得到证实。在使用GPT-2-small时,LLMLingua展示了出色的性能结果,与更大的模型大致匹配。它还在强大的LLM上表现出色,超过了预期的快速结果。

LLMLingua的可恢复性是一个值得注意的方面,因为当使用它来恢复压缩的提示时,GPT-4能够有效地从完整的9步CoT提示中检索重要的推理信息,并保持原始提示的含义和相似性。这个功能保证了可恢复性,即使在翻译后仍保留了关键信息,增加了LLMLingua的整体印象。

总而言之,LLMLingua为LLM应用中长提示带来的困难提供了全面的解决方案。该方法展现了出色的性能,并提供了提高LLM应用的效果和价格效益的有用途径。

Leave a Reply

Your email address will not be published. Required fields are marked *