中国的一项新的人工智能研究介绍了RecycleGPT：一种生成式语言模型，其解码速度为1.4倍，通过回收预生成的模型状态而无需运行整个模型的多个步骤

中国的一项新的人工智能研究介绍了RecycleGPT：一种生成式语言模型，其解码速度为1.4倍，通过回收预生成的模型状态而无需运行整个模型的多个步骤四海第1张

在各种应用领域中创建令人满意的文本时，大型语言模型（LLMs）在自然语言生成方面带来了革命性的变化。尽管扩大模型规模（100B+参数）会显著提高性能，但事实仍然是，完成单个解码步骤所需的时间随着模型大小的增加而增长。更大的模型引入了大量的计算和更大的内存占用，这两者都对LLM的推理速度缓慢产生重要影响。KV缓存和训练模型参数以及推理所需的临时状态的内存需求是相当大的。

由于系统的内存访问速度较慢，LLMs的令牌生成速度较慢。至于产生每个标记所需的时间，它大致与模型参数的总数相关。

有几项工作旨在使推理更加高效。这些研究的基本重点是最小化内存使用量和缓解内存流量拥塞。无锡国家超级计算中心和清华大学的一项新研究调查了有效的解码技术，以最大化标记生成，并同时保持内存处理预算不变。为了实现快速解码，他们引入了一种名为RecycleGPT的新的语言模型架构，它可以重复使用先前创建的模型状态。

他们的策略是通过将一个新的可回收模块纳入原始语言模型中来进行微调，该模块基于先前生成的状态预测接下来的几个标记，而无需重复运行完整的模型。可回收模块由几个基于Transformer的层构建，这些层一起允许在进行预测时进行更好的表示。RecycleGPT可以与传统的解码技术以多种不同的方式结合使用，以进行推理。本研究循环使用它们（即，每生成两个标记需要运行一次整个模型），留下其他方式的研究以供未来参考。可回收模块的目的是加快解码过程，它之所以能够做到这一点，是因为尽管其结构简单，但该模块能够有效地表示上下文信息并生成正确的预测。

团队对RecycleGPT进行了多项测试，与几个行业标准进行了比较。研究结果显示，该模型的速度比最先进的语言模型快1.4倍，参数仅增加15％，同时在下游任务上保持类似的性能。研究人员计划很快展示不同规模的RecycleGPT模型。

由于其适应性和可扩展性，我们的回收技术可以与各种预训练模型一起使用。此外，可以修改创作技术和可回收模块的大小以达到所需的加速性能。