使用基础设施即代码进行高级数据工程和机器学习运维
本文介绍如何使用AWS Step Functions创建和编排机器学习管道,并使用基础设施即代码进行部署。本文适用于希望使用CloudFormation模板部署和更新机器学习管道的数据和ML Ops工程师。本文将提供这些模板和Gihub存储库链接。
我们可以使用AWS Step Functions触发任何其他服务,甚至包括其他供应商的托管服务。它是一个强大的工具,允许我们编排数据服务的流程和数据的处理和转换方式。我将使用AWS Glue和AWS Personalize作为示例,创建一个可以在任何所需间隔调度并具有以下流程的机器学习(ML)管道:
作为一名数据工程师,我负责设计一个数据管道,用于准备数据湖中的数据并触发机器学习模型训练。
所以我在考虑使用其他工具时,例如Airflow等,我从未尝试过AWS Step Functions。考虑到它是AWS的本机服务,我决定尝试使用它。我的想法是每天或根据需要使用AWS Step Functions进行ML模型训练。这将确保为所需的任何模型更新提供灵活的设置。关于为数据平台使用基础设施即代码的好处是不争的,我之前在这里写过:
数据平台的持续集成和部署
数据工程师和ML Ops的CI/CD
towardsdatascience.com
我选择使用AWS Personalize进行测试。该服务可以为我的应用用户提供更好的产品推荐。AWS Personalize似乎是正确的选择,因为您无需担心机器学习方面的细节…