在GCP无服务器上部署TFLite模型

如何以无服务器方式部署量化模型

模型部署很棘手，由于云平台和其他与人工智能相关的库几乎每周都在更新，因此向后兼容性和找到正确的部署方法是一个巨大的挑战。在今天的博客文章中，我们将看到如何以无服务器方式在Google云平台上部署一个tflite模型。

本博文结构如下：

了解无服务器和其他部署方式
什么是量化和TFLite？
使用GCP Cloud Run API部署TFLite模型

Img Src: https://pixabay.com/photos/man-pier-silhouette-sunrise-fog-8091933/

了解无服务器和其他部署方式

首先让我们了解什么是无服务器，因为无服务器并不意味着没有服务器。

一个AI模型，或者任何应用程序都可以通过三种主要分类以多种不同的方式部署。

无服务器：在这种情况下，模型存储在云容器注册表中，并且仅在用户发出请求时运行。当发出请求时，会自动启动一个服务器实例来满足用户请求，并在一段时间后关闭。从启动、配置、扩展到关闭，所有这些都由Google云平台提供的Cloud Run API处理。在其他云中，我们也有AWS Lambda和Azure Functions作为替代方案。

无服务器有其自身的优点和缺点。

最大的优势是节省成本，如果您没有大量用户，大部分时间服务器都处于空闲状态，您的资金只是无缘无故地流失。另一个优点是我们不需要考虑基础设施的扩展，它可以根据服务器的负载自动复制实例数量并处理流量。
在劣势列中，有三个要考虑的因素。它有一个较小的有效载荷限制，意味着它可以用于运行较大的模型。其次，服务器在15分钟的空闲时间后自动关闭，因此当我们长时间后再次发出请求时，第一个请求需要较长时间…