Press "Enter" to skip to content

如何通过Pytorch在x86 CPU上将推理速度提升多达9倍

Published August 23, 2023 by 四海吧

如何用几行代码实现一些令人印象深刻的结果的完整指南！

使用StableDiffusion生成的图像

要获得类似这样的深度洞察以及更多内容，包括每周最佳ML论文、职位发布、来自实际经验的ML提示以及研究人员和开发人员的ML故事，请在此处订阅我的通讯。

量化：是什么以及为什么？

深度学习中的量化是指减少表示模型权重和偏差的位数的过程。这是一种用于压缩模型并使其在资源受限设备（如手机、边缘设备和嵌入式系统）上更高效部署的技术。

来自Nvidia网站的图像

工作原理

权重量化：将神经网络中的权重的连续值映射到一组离散值。例如，可以使用8位整数代替32位浮点数来表示权重。这样可以将存储每个权重所需的内存减少4倍。
激活量化：与权重一样，层的输出（激活）也可以进行量化。这是至关重要的，因为在推理过程中，需要存储中间激活，并且使用低精度可以节省内存。
量化级别：可以以不同精度级别进行量化，从二进制（1位）到三进制（2位），更常见的是8位。精度的选择是模型大小、计算效率和准确性之间的权衡。
使用量化进行训练：虽然可以直接对预训练模型进行量化，但通常最好在训练模型时考虑量化进行微调或训练。这称为量化感知训练（QAT）。在QAT过程中，模型意识到量化过程，并可以相应地调整权重以最小化准确性损失。

为什么我们需要它

模型大小减小：量化模型需要更少的内存，这是…

Published in 四海

Leave a Reply

Web Analytics