将LLaMa放入您的口袋的诀窍：结识OmniQuant，一种将LLM的效率和性能完美结合的人工智能方法

将LLaMa放入您的口袋的诀窍：结识OmniQuant，一种将LLM的效率和性能完美结合的人工智能方法四海第1张

大型语言模型（LLMs），如臭名昭著的ChatGPT，在各种自然语言处理任务中取得了令人印象深刻的表现，如机器翻译、文本摘要和问答。它们改变了我们与计算机的交流方式和任务处理方式。

LLMs已经成为具有变革性的实体，推动了自然语言理解和生成的界限。其中，ChatGPT是一个显著的例子，代表了一类设计用于在对话环境中与用户进行交互的LLM。这些模型是在极大的文本数据集上进行了广泛训练的结果。这使它们具备了理解和生成类似人类文本的能力。

然而，这些模型在计算和内存方面非常消耗资源，限制了它们的实际应用。顾名思义，这些模型是庞大的；当我们说庞大时，我们是指真的很大。最近的开源LLM，来自Meta的LLaMa2，包含大约700亿个参数。

减少这些要求是使它们更实用的重要一步。量化是减少LLMs计算和内存开销的一种有希望的技术。有两种主要的量化方式——训练后量化（PTQ）和量化感知训练（QAT）。虽然QAT在准确性方面具有竞争力，但在计算和时间方面代价太高。因此，对于许多量化工作来说，PTQ已经成为首选方法。

现有的PTQ技术，如仅权重和权重-激活量化，已经在内存消耗和计算开销方面取得了显著的降低。然而，它们在低位量化方面往往存在困难，而这对于高效部署至关重要。低位量化中的性能下降主要是由于依赖手工量化参数，导致结果不够优化。

让我们见识一下OmniQuant。它是一种用于LLMs的新型量化技术，在各种量化场景中实现了最先进的性能，特别是在低位设置中，同时保留了PTQ的时间和数据效率。

OmniQuant采用了一种独特的方法，冻结原始的全精度权重，并结合一组有限的可学习量化参数。与繁琐的权重优化相比，OmniQuant侧重于逐层量化过程中的每个单独层。这使得可以使用简单的算法进行高效的优化。

OmniQuant由两个关键组件组成——可学习权重剪裁（LWC）和可学习等效变换（LET）。LWC优化剪裁阈值，调节极端权重值，而LET通过学习变换来处理激活的离群值。这些组件使得全精度的权重和激活更适合量化。

OmniQuant的灵活性体现在其适用于仅权重和权重-激活量化的多样性。最好的部分是，OmniQuant对于量化模型没有额外的计算负担或参数，因为量化参数可以融合到量化权重中。

与LLM中的所有参数进行联合优化不同，OmniQuant在移动到下一层之前依次量化一层的参数。这使得OmniQuant能够使用简单的随机梯度下降（SGD）算法高效地进行优化。

它是一个实用的模型，因为即使在单个GPU上也很容易实现。您可以在16小时内训练自己的LLM，这使得它们在各种实际应用中非常易于使用。此外，OmniQuant在性能上优于先前的基于PTQ的方法。

然而，尽管它是一种相对较新的方法，但它的性能还是有一些限制的。例如，它有时可能会产生比全精度模型稍差的结果。然而，这只是OmniQuant的一个小不便，因为它仍然是一种用于高效部署LLM的有前途的技术。