高效深度学习：释放模型压缩的力量

加速模型在生产中的推理速度

当一个机器学习模型部署到生产环境中时，通常需要满足在原型阶段没有考虑到的要求。例如，生产中的模型将不得不处理来自不同用户的大量请求。因此，您希望优化实例的延迟和/或吞吐量。

这意味着机器学习模型必须在进行预测时非常快速，为此有各种技术可用于提高模型推理速度，让我们在本文中看一下最重要的技术。

有一些技术旨在使模型更小，因此被称为模型压缩技术，而其他技术则侧重于使模型在推理时更快，因此属于模型优化领域。但是，通常使模型更小也有助于推理速度，因此在这两个研究领域之间有着非常模糊的界线。

这是我们要介绍的第一种方法，目前正在被广泛研究，事实上最近有很多关于它的论文问世。

基本思想是用具有较低维度的矩阵（表示网络层的矩阵）替换神经网络的矩阵，虽然更准确的说法应该是张量，因为我们通常有超过2维的矩阵。这样，我们将拥有更少的网络参数和更快的推理速度。

一个简单的例子是在CNN网络中，将3×3卷积替换为1×1卷积。这样的技术被一些网络如SqueezeNet所使用。