这项AI研究介绍了Atom：一种用于高效准确的大型语言模型（LLM）服务的低位量化技术

“`html

大型语言模型是人工智能领域最近的引进，已经席卷全球。这些模型由于其令人难以置信的能力，被所有人使用，包括研究人员、科学家甚至学生。凭借其模仿人类的能力，能够回答问题、生成内容、摘要文本、完成代码等等，这些模型已经走过了很长的路程。

大型语言模型在许多领域中都是必需的，包括情感分析、智能聊天机器人和内容创作。由于它们使用了大量的计算资源，因此有效地利用GPU资源来增加吞吐量。这是通过批处理多个用户请求来完成的，并且为了进一步提高内存利用率和计算能力，使用了大型语言模型量子化技术。然而，现有的量子化方法，如8位权值激活量子化，并没有充分利用新一代GPU的能力。由于这些GPU上的整数运算器是4位的，因此目前的量子化技术并不是为了最大的效率而设计的。

为了解决这个问题，一组研究人员引入了Atom，这是一种新的方法，可以最大化大型语言模型的吞吐量。Atom是一种低位量化技术，旨在大幅提高吞吐量而不损失精度。它使用低位运算符和低位量化来减少内存使用，以实现这一目标。它使用一种特殊的细粒度和混合精度量化的组合来保持卓越的准确性。

研究团队分享了Atom在4位权值激活量化配置上的评估结果。结果显示，与典型的16位浮点（FP16）方法相比，Atom可以在相同的目标范围内保持延迟，并且将端到端吞吐量提高了最多7.73倍；相比于8位整数（INT8）量化，吞吐量提高了2.53倍。这使得Atom成为应对日益增长的服务需求的可行解决方案，因为它可以保持期望的响应时间水平，并大大提高大型语言模型处理请求的速度。

研究人员总结了主要贡献如下。

对大型语言模型的服务进行了全面分析，这是研究性能分析的第一步。确定了使用低位权值激活量化方法的重要性能优势。

提出了一种独特而精确的低位权值激活量化技术，名为Atom。

研究团队分享Atom采用了多种策略来确保最佳性能。它使用混合精度，对其余关键激活和权重使用降低精度，同时保持前者的准确性。使用了细粒度组量化来减少量化过程中的错误。

Atom采用动态激活量化，通过调整每个输入的独特分布来减少量化错误。为了进一步提高整体性能，该方法还处理了KV缓存的量化。

研究还提出了一种长期管理（LLM）服务的综合框架。研究团队共同设计了一种有效的推理系统，构建了低位GPU内核，并在实际环境中展示了Atom的有用端到端吞吐量和延迟。

对Atom的性能进行了全面评估，结果显示Atom大大提高了LLM服务的吞吐量，以最小化精度损失为代价，吞吐量提高了最多7.7倍。

“`