从零开始的实验编排

开发一个定制的实验编排器来解决复杂的建模问题。

在本文中，我们将探讨实验编排的重要性，现有的编排解决方案，如何使用MongoDB构建自己的编排器，并解释为什么在某些用例中这可能是有益的。

谁会受益于这篇文章？ 任何试图将模型拟合到数据中的人；因此需要一种组织这些实验的方式。

本文的高级程度如何？ 编排的概念相当简单，并且适用于几乎所有技能水平。示例对于后端开发人员或试图拓展能力的数据科学家来说是可行的。

先决条件： 对核心网络原理有工作理解，如数据库和服务器，以及对核心数据科学概念有理解，如超参数。

代码：完整代码可以在此处找到。注意：该存储库在撰写本文时仍在进行中。

在“实验编排”中，我指的是许多任务都涉及相同的基本概念。最常见的实验编排形式是超参数扫描：在给定一定范围的超参数值时，您希望从该范围中扫描并找到给定建模问题的最佳超参数集。对这些计划实验的组织通常被称为编排。

简单的扫描通常可以在大多数情况下完成工作，但随着建模问题变得更加复杂，往往会有更复杂的实验。您可能需要尝试多种模型类型，每种类型都具有自己的超参数空间，并且适用于多个数据集。

例如，我目前正在进行关于非同质建模应用中不同建模策略性能的研究。我对“解决特定问题的最佳超参数集是什么”不感兴趣，而是对“多个具有自己的超参数的模型类型如何进行实验…