部署机器学习模型意味着什么？

数据科学是一个有前景的领域，吸引着越来越多的公司，但它在工业化过程中的整合仍然面临困难。在大多数情况下，机器学习（ML）模型在科学研究环境中离线实现。创建的模型中有近90％从未在生产条件下部署。部署可以定义为将ML模型集成到现有生产环境中以实现有效的数据驱动业务决策的过程。这是机器学习生命周期的最后阶段之一。然而，近年来，ML已经从纯粹的学术研究领域发展为可以解决实际业务问题的领域。然而，在操作系统中使用机器学习模型可能会面临各种问题和担忧。

在生产环境中定义ML模型有几种方法，具体取决于范围的不同优势。大多数数据科学家认为，部署模型是软件工程任务，应由软件工程师处理，因为所需的所有技能更与他们的日常工作密切相关。

像Kubeflow和TFX这样的工具可以解释整个模型部署过程，数据科学家应该使用它们。使用Dataflow等工具可以与工程团队密切合作。它可以设置临时环境，在部署之前可以测试数据管道的部分。

部署过程可以分为四个主要步骤：

1）准备和配置数据管道

第一项任务是确保数据管道结构高效，并能提供相关且高质量的数据。确定如何在部署后扩展数据管道和模型非常重要。

2）访问相关的外部数据

在部署生产预测模型时，必须注意使用最佳的数据，从合适的来源从概念到发布。即使仔细设计，一个破损的模型也是无用的。此外，此挑战的另一个要素是捕获足够的历史数据以获得稳健且具有普适性的模型。一些公司会内部收集所需的所有数据。为了全面了解和洞察，考虑包括外部数据源。

3）构建强大的测试和训练自动化工具

在进入预测模型部署阶段之前，严密且无妥协的测试和训练是必不可少的，但可能需要时间。因此，为了避免减慢速度，尽可能自动化。除了研究一些节省时间的技巧或工具，还需要生成可以无需工程师任何努力或操作就能工作的模型。

4）规划和设计强大的监控、审计和回收协议

在部署和运行ML模型之前，必须检查它是否实际产生了预期类型的结果。必须验证这些结果是否准确，并且提供给模型的数据能够保持这些模型的一致性和相关性。此外，弱旧数据可能导致不准确的结果。

如果我们更详细地观察机器学习实验，我们会意识到这些实验是在时间上冻结的数据上进行的，也就是说，用于训练模型的数据通常是固定的。换句话说，这些数据不会改变或在实验期间变化很小。在这种情况下，我们称之为封闭模型。在真实世界条件下，模型不断遇到与创建模型时使用的数据相当不同的新数据。因此，模型继续学习并更新其参数非常重要。迅速而轻松地使用新数据重新训练模型非常有趣。模型重新训练是指开发具有与原始模型不同属性的新模型。重要的是能够重新部署此模型以获得其新功能的好处。

总之，部署ML模型是一个具有挑战性的过程，要成功完成，需要对ML模型的使用和利用周围的所有关注点有全面的理解。一个人很少具备完成所有这些过程所需的必要才能：

了解公司的需求
创建ML模型。
使模型工业化
批量或实时收集数据
在数据上使用部署的模型

因此，数据科学家很难独自完成所有这些过程。

数据工程师、软件工程师和数据科学家之间的合作至关重要。

总之，数据科学项目的成功受到所需才能的多样性和每个团队对问题的全面理解的影响。