Press "Enter" to skip to content

量化与合作将LLMs的推理时间缩短80%

来源: https://www.pexels.com/photo/cropland-in-autumn-18684338/

量化是一种技术,用于各种不同的算法,但近期随着大型语言模型的大量涌现而变得流行起来。本文旨在介绍大型语言模型的量化以及这种技术对于本地运行这些模型的影响。我将介绍一种与量化之外的不同策略,可以进一步减少运行这些模型的计算要求。我将解释为什么这些技术可能对您感兴趣,并展示一些具有代码示例的基准测试,以展示这些技术的有效性。我还简要介绍了硬件要求/建议以及您可用的现代工具,以在您的计算机上实现大型语言模型的目标。在以后的文章中,我计划提供逐步说明和代码,以微调您自己的大型语言模型,敬请关注。

简而言之——通过对我们的大型语言模型进行量化并更改张量的数据类型,我们能够在具有两倍参数的模型上运行推理,同时减少墙上时间的80%。

如往常一样,如果您希望讨论文章中的任何内容,请联系我

本文中的所有观点都属于我个人。本文没有赞助。

什么是大型语言模型的量化?

量化允许我们通过将网络的权重和偏差从原始的浮点格式(例如32位)转换为较低精度的格式(例如8位)来减小神经网络的大小。原始的浮点格式可以根据模型的架构和训练过程等多个因素而不同。量化的最终目的是减小模型的大小,从而减小内存和计算要求,以进行推理和训练。如果您尝试自己量化模型,量化很容易变得复杂。这主要是由于缺乏特定供应商的硬件支持。幸运的是,可以通过使用特定的第三方服务和软件来绕过这个问题。

就我个人而言,我为了在我的Mac上对Meta的Llama-2等大型语言模型进行量化,必须跳过一些麻烦的步骤。这主要是由于对于标准库(或任何包含自定义CUDA核心的库)缺乏支持。第三方工具如……

Leave a Reply

Your email address will not be published. Required fields are marked *