MLflow — 一个用于管理机器学习生命周期的开源平台。
介绍
在机器学习中,没有免费的午餐。我们不知道哪种数据预处理或哪种机器学习算法对于特定问题最好。没有一种唯一的算法表现最佳。这就是为什么实验是获得适当结果的典型方法。为了进行有效的机器学习实验,我们需要跟踪、记住和可视化每个实验运行。
目录
什么 — 是实验跟踪?
为什么 — 实验跟踪很重要?
如何 — 进行实验跟踪?
使用MLFlow进行实验跟踪的实际演示
什么是ML实验跟踪?
实验跟踪是跟踪ML实验中所有相关信息的过程,例如:
- 源代码
- 环境
- 数据
- 模型
- 中间结果
- 超参数
- 指标
- 等等。
以下是需要记住的一些术语:
- ML实验:构建ML模型的迭代过程
- 实验运行:ML实验中的一个试验。
- 运行文件:与ML运行相关的任何文件数据
- 实验元数据:与实验相关的所有信息
为什么 — 实验跟踪很重要?
实验跟踪对于多个原因至关重要,例如:
- 可重现性:通过记录实验的所有相关配置,包括数据版本、模型、超参数、随机种子等,我们可以重新创建相同的环境并重新运行实验(如果需要)。这确保了结果可以被其他人重现和验证。
- 协作:它允许我们组织…