中国的研究人员引入了一种新的压缩范式，称为检索式知识传输（RetriKT）：彻底改变了大规模预训练语言模型在实际应用中的部署方式

自然语言处理（NLP）应用程序使用预训练的语言模型（PLMs），包括BERT/RoBERTa，展示出了出色的性能。然而，由于它们的巨大复杂性，这些模型通常具有数亿个参数，对研究人员来说构成了重大困难。因此，大规模预训练语言模型（PLMs）尚未充分发挥其潜力。许多模型压缩策略，包括权重共享，量化，网络修剪和知识蒸馏，已被提出来解决这个问题。然而，需要大压缩比的情况，如知识蒸馏，与这些模型压缩技术并不直接相关。

当添加辅助模型时，通常会导致更差、更不稳定的性能。大型语言模型（LLMs）因其在语言方面的高度技能而越来越受欢迎，并可用于各种下游活动。因此，研究将此信息应用于小型模型的方法至关重要。但是，由于LLMs具有非常高的压缩比，目前的方法不适用于压缩它们。先前的研究提出了使用LLMs进行知识转移和数据增强，以实现小规模模型在资源匮乏数据集上表现出更好性能。

然而，小规模模型的受限参数大小在承担更困难任务（如SuperGLUE基准测试）时会带来障碍，使得保留LLMs所传达的信息变得更加容易。因此，仍然需要改进小规模模型的性能提升。来自北京大学，美团，Meta AI，全国人工智能重点实验室，北京国际人工智能中心和中国人民大学的研究人员提出了一种名为基于检索的信息传输（RetriKT）的革命性压缩模式，旨在高效精确地将大型语言模型（LLMs）的信息传输到小规模模型。他们的方法包括两个主要步骤：首先，从LLM中提取知识以创建知识库，然后小规模模型从知识库中检索相关信息以完成任务。

更准确地说，他们使用软提示调整LLM的方法，使其生成的样本符合领域要求。他们还提供了Proximal Policy Optimization（PPO）强化学习技术来提高生成质量。最后，小规模模型获得了从知识库中获取相关数据的能力。他们对SuperGLUE和GLUE基准测试中的真正困难和资源匮乏任务进行了全面测试。实验结果显示，利用LLM的信息，RetriKT极大地提高了小规模模型的性能，并超过了先前的SOTA知识蒸馏方法。

这表明，用于严重模型压缩的基于检索的知识转移模式是可行和成功的。以下是他们的贡献概述：

• 基于检索的信息传输，他们提出的一种新颖的压缩模式，旨在将LLMs的信息传输到极小规模模型。

• 为了提高生成质量，他们精心构建了激励函数，并提出了强化学习算法PPO。这一模式解决了在模型大小存在较大差异时获得极端模型压缩的问题。

• 通过对SuperGLUE和GLUE基准测试中的资源匮乏任务进行全面测试，他们改进了从用于知识转移的LLMs中收集的知识的准确性和多样性。研究结果表明，通过利用LLMs的信息，RetriKT极大地提高了小规模模型的性能，并超过了先前的SOTA知识蒸馏技术。