Press "Enter" to skip to content

高效深度学习:释放模型压缩的力量

Image By Author

加速模型在生产中的推理速度

介绍

当一个机器学习模型部署到生产环境中时,通常需要满足在原型阶段没有考虑到的要求。例如,生产中的模型将不得不处理来自不同用户的大量请求。因此,您希望优化实例的延迟和/或吞吐量。

  • 延迟:是完成任务所需的时间,例如点击链接后加载网页所需的时间。它是开始某个任务和看到结果之间的等待时间。
  • 吞吐量:是系统在一定时间内可以处理的请求量。

这意味着机器学习模型必须在进行预测时非常快速,为此有各种技术可用于提高模型推理速度,让我们在本文中看一下最重要的技术。

模型压缩

有一些技术旨在使模型更小,因此被称为模型压缩技术,而其他技术则侧重于使模型在推理时更快,因此属于模型优化领域。但是,通常使模型更小也有助于推理速度,因此在这两个研究领域之间有着非常模糊的界线。

低秩分解

这是我们要介绍的第一种方法,目前正在被广泛研究,事实上最近有很多关于它的论文问世。

基本思想是用具有较低维度的矩阵(表示网络层的矩阵)替换神经网络的矩阵,虽然更准确的说法应该是张量,因为我们通常有超过2维的矩阵。这样,我们将拥有更少的网络参数和更快的推理速度。

一个简单的例子是在CNN网络中,将3×3卷积替换为1×1卷积。这样的技术被一些网络如SqueezeNet所使用。

Leave a Reply

Your email address will not be published. Required fields are marked *