Press "Enter" to skip to content

在机器学习系统中探索设计模式,以提高性能和可用性

在机器学习系统中探索设计模式,以提高性能和可用性 四海 第1张在机器学习系统中探索设计模式,以提高性能和可用性 四海 第2张

机器学习无处不在,得益于其最近的发展和新发布。随着人工智能和机器学习日益普及和对生产级机器学习模型的需求增加,发现机器学习问题并为其构建解决方案非常重要。设计模式是缩小机器学习相关问题解决方案范围的最佳方法。模式的概念有助于定义问题并找到深入的解决方案,这些解决方案可以在类似问题上重复使用任意次数。

设计模式将知识编码为全球从业者可遵循的指令。在机器学习生命周期的不同阶段使用不同的机器学习设计模式。其中一些模式用于问题框架、评估可行性或解决机器学习模型的开发或部署阶段。最近,一位名为Eugene Yan的Twitter用户在其推文中讨论了机器学习系统中的设计模式。他在推文中列出了其中的一些。

  1. 级联:级联将复杂问题分解为较简单的问题,然后使用后续模型来解决更困难或更具体的问题。所分享的例子是关于Stack Exchange,这是一个在线社区平台,他们使用级联防御来对抗垃圾邮件。它由多个层次的保护组成,用于检测和防止垃圾邮件被发布到他们的平台上,其中每个层次都专注于垃圾邮件检测的不同方面。第一道防线是当有人发布速度过快以致于不可能是人类操作时(HTTP 429错误),第二道是如果有人通过正则表达式和规则被捕获(启发式算法),第三道则是基于阴影测试的极其准确(机器学习)。级联以系统化和分层的方式工作,因此是一种有效的方法。在此处查看资源。
  1. 重构 – 重构涉及重新定义原始问题,以使其更容易解决。推文中给出的例子是关于阿里巴巴,一个大型电子商务平台,他们重新定义了连续推荐的范式,帮助预测用户可能与之互动的下一个物品。在此处查看资源。
  1. 人在回路中 – 这涉及从用户、注释服务或领域专家那里收集标签或注释,以提高机器学习模型的性能。推文中提到的示例是Stack Exchange和LinkedIn,用户可以标记垃圾邮件。这允许用户对垃圾内容提供反馈,这些反馈可以用于训练机器学习模型以更好地检测垃圾邮件并过滤出冒犯性消息。在此处查看资源。
  1. 数据增强 – 它涉及创建训练数据的合成变化,以增加大小和多样性,以提高机器学习模型的泛化能力并减少过拟合的风险。其中提到了DoorDash这个食品配送平台的例子,数据增强被用于解决准确分类和标记新菜单项的挑战,这些菜单项的训练数据有限或没有可用的数据。在此处查看资源。
  1. 数据飞轮 – 这是一个正反馈循环,通过收集更多数据来改善机器学习模型,从而吸引更多用户和数据。其中分享了特斯拉的例子,它从其汽车中收集数据,例如传感器数据、性能指标和使用模式。这些数据用于识别和标记有助于改善用于自动驾驶等任务的模型的错误。在此处查看资源。
  1. 业务规则:这涉及根据领域知识或业务需求添加一些额外的逻辑或约束,以增强或调整机器学习模型的输出。Twitter使用机器学习模型来预测用户参与度,从而调节推文在时间轴中的可见性。它还使用手动调整的权重或规则作为机器学习模型输出的约束,以将知识纳入决策过程中。在此处查看资源。

因此,机器学习系统中的设计模式可以提高模型的性能、可靠性和解释性,并帮助解决该领域的挑战。

Leave a Reply

Your email address will not be published. Required fields are marked *