提炼我们所知道的

.fav_bar { 浮动：左；边框：1px实心#a7b1b5；上边距：10px；下边距：20px； } .fav_bar span.fav_bar-label { 文本对齐：中心；填充：8px 0px 0px 0px；浮动：左；左边距：-1px；右边框：1px虚线#a7b1b5；左边框：1px实心#a7b1b5；显示：块；宽度：69px；高度：24px；颜色：#6e7476；字体加粗；字体大小：12px；文本转换：大写字母；字体族：Arial, Helvetica, sans-serif; } .fav_bar a, #plus-one { 浮动：左；右边框：1px虚线#a7b1b5；显示：块；宽度：36px；高度：32px；文本缩进：-9999px； } .fav_bar a.fav_de { 背景： url(../images/icons/de.gif) 不重复 0 0 #fff } .fav_bar a.fav_de:hover { 背景： url(../images/icons/de.gif) 不重复 0 0 #e6e9ea } .fav_bar a.fav_acm_digital { 背景：url(‘../images/icons/acm_digital_library.gif’) 不重复 0px 0px #FFF; } .fav_bar a.fav_acm_digital:hover { 背景：url(‘../images/icons/acm_digital_library.gif’) 不重复 0px 0px #e6e9ea; } .fav_bar a.fav_pdf { 背景：url(‘../images/icons/pdf.gif’) 不重复 0px 0px #FFF; } .fav_bar a.fav_pdf:hover { 背景：url(‘../images/icons/pdf.gif’) 不重复 0px 0px #e6e9ea; } .fav_bar a.fav_more .at-icon-wrapper{ 高度： 33px !important ; 宽度： 35px !important; 填充： 0 !important; 右边框： none !important; } .a2a_kit { 行高： 24px !important; 宽度： unset !important; 高度： unset !important; 填充： 0 !important; 右边框： unset !important; 左边框： unset !important; } .fav_bar .a2a_kit a .a2a_svg { 左边距： 7px; 上边距： 4px; 填充： unset !important; }

如今的生成预训练变压器（GPT）模型之庞大和复杂程度简直令人震惊。例如，OpenAI的GPT-3拥有大约1750亿个参数，有人猜测GPT-4可能拥有多达1万亿个参数。a

所有这些都带来了巨大的开销，包括所需的云资源，包括计算周期和能源消耗。目前，训练最先进的人工智能（AI）模型所需的计算机能力每两年增长15倍。b 训练一个大型的GPT模型可能需要数百万美元。c 重新训练一个模型以适应像笔记本电脑或智能手机这样的设备可能会使价格大幅上涨。

因此，越来越多的关注点是在不丧失关键属性的情况下缩小GPT模型。在许多情况下，构建模型所需的原始参数在存在完整的GPT模型后不再需要。因此，通过各种技术，包括量化、稀疏性、修剪和其他蒸馏方法，可以将模型缩小，对性能几乎没有影响。

2023年1月，奥地利科学与技术研究所（ISTA）的两位研究人员将知识蒸馏和模型压缩的界限推向了一个新领域。通过量化、修剪和分层蒸馏的结合，他们发现了一种在一次操作中将GPT模型大小减小50%的方法，无需重新训练且准确性损失最小。SparseGPT在拥有1000亿到1000亿+个参数的模型规模上运行高效。

用于实现这一目标的深度学习方法SparseGPT , d可能为更实用的生成式人工智能铺平道路，包括为特定用户定制和优化的系统，比如旅行代理人、医生或保险调查员，同时也适应个人的特定行为和需求。此外，即使是加载缩小了的GPT模型到设备上也可以通过将敏感数据保持在云端以实现更高的安全性和隐私保护。

“在终端设备上压缩和运行这些强大的语言模型的能力带来了强大的功能，”ISTA教授、SparseGPT学术论文的合著者Dan Alistarh表示。“我们正在努力寻找一种方式，以确保准确可靠的结果，而不是让模型崩溃变得无法使用。这是一项重大的进步。”

回到顶部

打破模型

压缩AI模型的想法并不是特别新的。早在20世纪80年代，研究人员就开始探索简化数据的方法。就像人脑可以减少突触并重新训练自己一样，他们发现通常可以清除不需要和不必要的参数而不会出现推理和结果的显著下降。在GPT模型的情况下，目标是缩小模型但实现基本相同的结果。

“当你最初训练一个模型时，拥有大量的参数是很重要的。我们经验上看到，当模型过参数化时，更容易训练并能够从数据中提取有意义的信息，”加州大学伯克利分校的大型语言模型和人工智能研究员Amir Gholami说道。然而，一旦训练过程完成并发生收敛，“保留所有这些参数来产生准确结果就不再必要，”他说。

事实上，“研究人员发现，在某些情况下，可以通过将GPT等大型语言模型缩小100倍而不降低其功能来获得相同类型的性能，”Gholami说道。问题是要去除哪些参数，以及如何以最高效和具有成本效益的方式进行任务。这是一项重要的工作，因为构建和重新训练一个GPT模型可能需要数千个GPU小时，成本可能会高达数百万美元。

数据科学家使用几种技术来压缩GPT-4和谷歌的Bard等模型。在量化中，用于表示参数的精度从16位降低到4位；这将模型大小缩小了4倍。随着模型大小的缩小，这些模型可以适应更少数量的GPU，并且它们的推理延迟和能量需求也降低了。这种方法有助于避免工作负载遇到“内存墙”的现象。“这意味着瓶颈不再是计算速度，而是数据输入速度。所以，字节数越少越好，”Gholami说道。

另一种广泛使用的技术是稀疏性，它专注于去除不影响数据的不需要的值。可以将其视为零位量化。结构稀疏性涉及移除整个参数组，这使得实现更容易，通常会导致直接的效率提升。缺点是为了速度而牺牲了准确性，因为很难在不对模型产生负面影响的情况下去除大量的参数组。非结构稀疏性在没有对稀疏性模式施加任何约束的情况下移除冗余参数。因此，即使在极高的稀疏水平下，仍然可以保持模型的准确性。

数据科学家使用这些方法以及其他方法（如修剪，完全删除个别参数）持续减少这些模型的内存和计算开销。结果是，经过提炼和压缩的模型操作更快，消耗更少的能量，并且在某些情况下，甚至可以产生更好的结果。正如Gholami解释的，“最终你得到了一个更小但更高效的AI框架。”

回到顶部

学习AI的语言

数据科学家用于提炼和压缩GPT模型的方法需要一个“教师”网络来训练“学生”网络。“该系统学习逼近一个已经存在的程序。它映射到一个你已经能够计算的函数。”康奈尔大学计算科学系助理教授Christopher De Sa说道。“所以，在神经网络的情况下，你试图构建一个具有与已有神经网络相同准确性的模型，但更小。”

稀疏性专注于去除不影响数据的不需要的值。可以将其视为零位量化。

一个问题是，这些框架通常需要巨大的调整和重新训练投入。“它们产生了良好的、小型的模型，显示出低损失和高准确性。此外，结果不一定代表更大的模型。”De Sa说道。对于许多应用来说，这种预测的变化是可接受的，因为准确性水平保持高。“然而，如果你关心隐私或安全等问题，你可能会发现较大的网络无法满足关键需求，因为你不会与原始模型进行相同的预测，”他补充道。

在ISTA的博士候选人和SparseGPT论文的共同作者Elias Frantar表示，扩大量化、剪枝和知识蒸馏方法也是一个挑战。例如，如今的GPT模型比几年前大了1000倍，而且它们的规模仍在以惊人的速度增长。他说：“这影响了你用来蒸馏模型的技术。压缩具有数千亿参数的模型需要不同的思考和技巧。”

因此，当ISTA的研究人员启动SparseGPT项目时，他们采用了Alistarh所描述的“瑞士军刀方法”，即将剪枝、量化和蒸馏相结合。这对研究者着重以模块化方式应对挑战，首先单独压缩网络的各个层，然后重新组合所有部分以生成完全压缩的模型。尽管这种方法产生了显著的收益，但并不一定是理想的。

Frantar说：“如果你能够将所有东西一起优化，最终会产生最好的结果。但由于目前还不可能，问题就变成了：‘我们如何在我们正在使用的资源的基础上获得最佳的结果？’”

返回顶部

降低噪声，提高信号

SparseGPT可能并不完美，但这种技术已将GPT模型压缩推向了新的领域。在最大的开源模型OPT175B和BLOOM-176B上运行，SparseGPT算法在不到4.5小时内处理了超过1750亿个参数（约320GB的数据），其中高达60%的非结构化稀疏性。困惑度几乎没有增加，在最后，研究人员能够删除超过1000亿个权重，而性能和准确性没有明显的恶化。

该算法依靠巧妙的方法。它通过将压缩整个模型的任务分解为单独的、每层的压缩问题来成功实现，每个问题都是稀疏回归的实例。然后，它通过迭代地删除权重，并在删除过程中更新剩余权重以补偿所产生的误差来解决子问题。该算法通过以最大程度利用算法所需的计算资源的模式来冻结一些权重，进一步提高了效率。由此产生的准确性和效率使得首次能够处理具有超过1000亿个参数的模型。

令人惊讶的是，单个GPU能够在几小时内确定模型中不必要的数据，并以一次性且无需任何重新训练的方式呈现压缩模型。Alistarh说：“我们发现的有趣之一是，这些大型模型非常稳健，对数字噪声具有抵抗力。基本上，噪声在通过模型时被滤除，因此，你最终得到了一个经过优化用于压缩的网络。”

这一发现对于希望构建商业应用程序的软件开发人员和其他人来说是一个好消息。目前，各种业余爱好者和黑客社区正找到将更小且不一定是经过许可的GPT模型加载到设备上的方法，包括树莓派，而斯坦福大学的研究人员找到了一种以不到600美元的价格构建聊天GPT的方法。然而，斯坦福团队于2023年4月终止了所谓的Alpaca聊天机器人，原因是“托管成本和我们的内容过滤器的不足”，同时表示它的性能与OpenAI的CPT-3.5“非常相似”。

然而，要达到下一级的知识蒸馏和压缩，研究人员必须进一步推动量化、剪枝、微调和其他技术。Alistarh认为，将更多的计算资源投入到问题中可以提供帮助，但也有必要探索不同的技术，包括将数据集分成更多的子组、调整算法和探索稀疏权重。他说，这可能导致90%或更高的压缩率。

返回顶部

结果至关重要

目前还没有人知道在保持任何给定模型的最佳性能的同时可以实现多少压缩，De Sa指出，他和其他人继续探索各种选项和方法。研究人员还表示，必须谨慎行事。例如，对模型的更改可能意味着结果可能缺乏明确的语义含义，或者可能导致令人困惑的结果，包括看起来完全有效的幻觉。De Sa说：“我们必须专注于保留原始模型的特性，而不仅仅是准确性。可能最终得到相同或甚至更好的准确性水平，但与较大的模型相比，预测和结果可能会有显著不同。”

另一个问题是人们将复杂的AI语言模型加载到设备上，并将其用于不正当目的，包括机器人农场、垃圾邮件、网络钓鱼、虚假新闻和其他非法活动。阿利斯塔尔承认这是一个合理的担忧，数据科学界必须仔细审查在设备上使用GPT模型涉及的伦理问题。这激励了许多研究人员不公开发布训练参数和其他信息，格拉米说。将来，研究人员和软件公司将不得不考虑在设备上放置什么样的能力是合理的，以及什么样的结果和后果是不可接受的。

然而，SparseGPT和其他压缩大型语言模型的方法将会继续存在。更高效的模型将极大地改变计算和自然语言AI的使用方式。”除了构建更高效的模型和节省能源外，我们可以预期蒸馏和压缩技术将推动GPT模型的民主化。这将使人们能够掌控自己的数据，并引入与机器和其他人互动的新方式，”德萨说。

进一步阅读

Frantar, E. and Alistarh, D. SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot, ArXiv, Vol. abs/2301.00774, Jan. 2, 2023; https://arxiv.org/pdf/2301.00774.pdf

Yao, Z., Dong, Z., Zheng, Z., Gholami, A., Yu, J. Tan, E., Wang, L., Huang, Q., Wang, Y., Mahoney, M.W., and Keutzer, K. HAWQ-V3: Dyadic Neural Network Quantization, Proceedings of the 38 th International Conference on Machine Learning , PMLR 139, 2021; http://proceedings.mlr.press/v139/yao21a/yao21a.pdf

Polino, A. Pascanu, R., and Alistarh, D. Model Compression via Distillation and Quantization, ArXiv, Vol., abs/1802.05668, Feb. 15, 2018; https://arxiv.org/abs/1802.05668

Chee, J., Renz, M., Damle, A., and De Sa, C. Model Preserving Compression for Neural Networks, Advances in Neural Information Processing Systems , Oct. 31, 2022; https://openreview.net/forum?id=gtl9Hu2ndd

Cai, Y., Hua, W., Chen H., Suh, E,, De Sa, C., and Zhang, Z. Structured Pruning is All You Need for Pruning CNNs at Initialization, arXiv:2203.02549, Mar. 4, 2022; https://arxiv.org/abs/2203.02549

返回顶部

作者

Samuel Greengard 是一位居住在美国俄勒冈州West Linn的作家和记者。

返回顶部

脚注

a. https://neuroflash.com/blog/gpt-4-parameters-rumors-and-forecasts

b. https://medium.com/riselab/ai-and-memory-wall-2cb4265cb0b8

c. https://www.cnbc.com/2023/03/13/chatgpt-and-generative-ai-are-booming-but-at-a-very-expensive-price.html

d. https://arxiv.org/abs/2301.00774

e. https://stanforddaily.com/2023/04/02/how-stanford-researchers-attempted-to-make-a-new-chatgpt-with-less-than-600/

未经费用许可，允许个人或课堂使用本作品的部分或全部数字或硬质副本，前提是不为牟利或商业优势而制作或分发副本，并且副本第一页上有本声明和完整引用。必须尊重ACM以外的其他所有者拥有的此作品组件的版权。可以进行带有信用的摘要。复制、再版、在服务器上发布或分发给列表，需要事先特定的许可和/或费用。请向permissions@acm.org发送请求以获得发布许可或传真至(212)869-0481。