革命性提高人工智能效率：加州大学伯克利分校的SqueezeLLM首次亮相，通过稠密和稀疏量化，将大型语言模型服务的质量和速度相结合

革命性提高人工智能效率：加州大学伯克利分校的SqueezeLLM首次亮相，通过稠密和稀疏量化，将大型语言模型服务的质量和速度相结合机器学习第1张

近期大型语言模型（LLMs）的发展已经在多个领域展示了它们令人印象深刻的问题解决能力。LLMs可以包含数百亿个参数，并且是在庞大的文本语料库上训练的。

研究表明，在LLM推理中，内存带宽而不是CPU是生成任务的关键性能限制。这表明，在内存受限情况下，参数可以被加载和存储的速率，而不是算术运算，成为关键延迟障碍。然而，内存带宽技术的进展远远落后于计算，从而导致了所谓的内存墙现象。

量化是一种有前途的方法，它涉及将模型参数存储在比训练中使用的通常的16或32位精度更低的精度下。尽管近来有了像LLaMA及其指令跟踪变体这样的进展，但是在低比特精度和相对较小的模型（例如50B参数）下实现良好的量化性能仍然很困难。

加州大学伯克利分校的一项新研究深入研究了低比特精度量化，揭示了当前方法的缺点。基于这些发现，研究人员引入了SqueezeLLM，这是一个后训练量化框架，它将密集和稀疏分解技术与独特的基于灵敏度的非均匀量化策略相结合。这些方法允许在超低比特精度下进行量化，同时保持竞争性的模型性能，大大减少了模型大小和推理时间成本。他们的方法将LLaMA-7B模型的困惑度从均匀量化的28.26降至3位精度下的7.75，这是一个相当大的改进。

通过在C4和WikiText2基准测试上进行全面测试，研究人员发现，在应用于语言建模任务的LLaMA-7B、13B和30B时，SqueezeLLM在不同比特精度下始终比现有的量化方法表现更好。

根据团队的说法，由于权重矩阵中存在大量的异常值，因此许多LLMs的低比特精度量化特别困难。这些异常值同样影响它们的非均匀量化方法，因为它们会将位的分配偏向极高或极低的值。为了消除异常值，他们提供了一种简单的方法，将模型权重分成密集和稀疏组件。通过隔离极端值，中心区域显示出更窄的范围，最高可达10，从而获得更好的量化精度。使用高效的稀疏存储方法，如压缩稀疏行（CSR），可以将稀疏数据保持完整精度。该方法使用高效的稀疏核心函数处理稀疏部分，并将计算并行化处理密集部分，从而产生低开销。

研究团队通过将SqueezeLLM应用于Vicuna-7B和13B模型，演示了他们框架对IF模型量化的潜在效果。在测试中，他们比较了两个系统。首先，他们使用MMLU数据集来衡量模型的知识和问题解决能力，以评估生成的输出的质量。他们还使用GPT-4来排名量化模型相对于FP16基线的生成质量，使用Vicuna中提出的评估方法。在两个基准测试中，SqueezeLLM始终优于GPTQ和AWQ这两种目前的最先进的方法。值得注意的是，在这两个评估中，4位量化模型的表现与基线相同。

该研究展示了他们的模型在A6000 GPU上运行时的显著延迟降低和量化性能的进展。研究人员展示了LLaMA-7B和13B相对于基线FP16推理的速度提升高达2.3倍。此外，所提出的方法实现了比GPTQ高达4倍的更快的延迟，展示了它在量化性能和推理效率方面的功效。