Press "Enter" to skip to content

通过敏捷数据科学项目管理来控制AI成本

运营敏捷数据科学组织的蓝图

介绍

数据科学的世界是复杂的,隐含的成本超出了预算限制。数据科学家对于任何组织来说都是一项重要投资。不幸的是,像闲置基础设施这样的低效率会浪费大量的数据基础设施投资。敏捷方法提供了一种解决方案,改善工作流程并减少时间浪费。通过敏捷,传统的数据科学过程变得优化和适应性更强,更有效地提供价值。本文探讨了这些隐藏成本,并演示了如何通过敏捷实践使您的数据科学计划更具成本效益。

第一部分:数据科学的隐藏成本

数据科学家凭借其熟练处理数据的复杂知识和专业技能,是一种宝贵的资源,他们的生产力至关重要。数据科学家在创新上花费的时间越少,而在繁琐任务上花费的时间越多,开支就越大,回报越少。此外,数据科学家倾向于在自己的机器上工作,以免受中央IT的限制,或者搭建并行的“影子IT”容量,这使得知识发现变得繁重,并经常导致重新发明轮子的情况。

浪费可以以多种形式出现。波士顿咨询集团发现,只有44%的模型在投产。数据科学家每天在IT环境设置等琐碎任务上浪费的时间相当可观。此外,当数据科学家忙于工作时,基础设施成本迅速增加。当他们忙于工作且无法进行创新时,数据基础设施投资实际上会变得闲置、开启并过度规划。最后,将数据进出云端所需的成本也随着AI数据规模的增加而增加。结果,跨多个堆栈、孤立和环境管理云成本变得难以控制。

机器学习,特别是生成性AI,需要大量的云计算和昂贵的图形处理器(GPU)。据 SemiAnalysis 在《华盛顿邮报》上的一篇报道,2023年,像 ChatGPT 这样的重要模型给OpenAI等组织每天在计算成本上造成大约70万美元的开支[1]。根据一份估计,ChatGPT在部署之前需要1000多个GPU和数月的训练[2]。

这种困扰仍然存在。约56%的数据科学领导需要帮助适当扩展其数据科学项目(BCG)。例如,分布在多个云平台上的数据不仅会增加存储成本,还会使数据在团队之间难以访问和共享。这种分散的方法还可能进一步加重预算压力,并破坏进行数据科学生命周期中所必需的协作和效率。我们如何将这些绊脚石转化为垫脚石?答案可能在于采用敏捷方法和结构化的流程设计。

第二部分:数据科学中的流程设计和敏捷方法

如今,在效率和适应能力至关重要的情况下,敏捷方法在数据科学项目中变得越来越相关。敏捷流程包括适应性、协作和迭代式开发,所有这些因素都可以极大地影响整个数据科学生命周期项目的成本效益。典型的数据科学项目非常适合敏捷实践,因为它天然展示了敏捷管理方法的关键特点:

  • 增量和迭代开发——数据科学产品是逐步建立的。大多数常用于管理数据科学项目的框架都有严格定义的阶段。例如,CRISP-DM 使用业务理解、数据理解、数据准备、建模和评估。
  • 关注价值——预测模型,以及数据科学本身,本质上是以价值为中心的,因为模型的推荐和洞察直接驱动业务决策。
  • 授权团队——当数据科学团队有权优先组织和安排团队内的工作时,他们可以达到最高生产力。这包括选择特定的模型、工具、框架、计算资源、编程语言等。
  • 持续学习——这是敏捷的另一个重要原则。当我们开始处理一个模型时,我们有一定的预期并根据这个预期构建产品(模型、报告等)。在第一次迭代之后,或在项目中的某个阶段(例如,探索性数据分析)之后,我们对问题有了更多的了解,这也使得我们能够相应地调整预期。

数据科学项目通常需要多个阶段之间的相互作用。例如,较差的模型结果可能提示重新检查数据收集,以获得具有更好预测能力的数据。敏捷方法接受这种循环性质,允许团队适应和改进过程。

作者提供的图片

以下是敏捷过程在典型数据科学项目中的简要概述:

  • 商业案例:定义问题和潜在影响。
  • 数据收集和初步分析:收集、分析和验证数据。
  • 模型构建/探索性数据分析:开发和测试模型。
  • 操作化:将模型部署到生产环境中。
  • 监测和分析:持续监测、分析和改进模型。

像Jira这样的项目管理工具可以采用不同的敏捷方法。如果您的数据科学平台使用项目来组织工作单元,并且您的工作流程使用了诸如任务、故事和错误等子问题的史诗问题,将史诗问题链接到项目可以简化开发过程和跟踪进展/工作量。

对于不同团队处理不同阶段的复杂项目,创建链接到任务票的项目可能更高效。每个票代表一个单独的阶段或一组阶段,确保与复杂工作流程更好地对齐。

第三部分:基础设施成本和控制

基础设施管理在数据科学中至关重要,但往往被忽视。设置和管理数据科学环境所涉及的复杂性可能导致巨大的隐藏成本,特别是当资源被低效利用时。当投资处于闲置状态、长期开启状态和过度供应状态时,这些费用会迅速积累,从而减少将宝贵资源投向更有生产力的方向的机会。

机器学习模型,特别是深度学习,需要大量的计算资源——高端GPU和云计算实例——而成本可能非常高。此外,商业平台可能有溢价,使价格更高。在基础设施规划和投资方面采取战略性的方法,平衡对尖端技术的需求与成本控制的必要性。

这个问题不仅消耗财务资源,还导致潜在生产力的损失和资源配置的效率瓶颈,因为资源被多个团队糟糕地分配使用。遗憾的是,这种形式的浪费并不总是明显的,通常需要仔细的跟踪和管理才能检测和减轻。利用敏捷策略可以从数据科学投资中获得更大价值,将潜在浪费转化为生产力和创新。它还为费用、资源利用率的监控创造了一条纸质路径,并最终促进了个别数据科学项目ROI的计算。

第四部分:扩展、数据管理和敏捷工作流程

扩展数据科学项目是一项巨大而常常被低估的任务。根据行业报告,只有56%的数据科学项目能够超越实验阶段,提供商业价值。一个重要因素是与数据存储和管理相关的不断增长的成本,以及来自各种硬件和软件解决方案的成本。然而,采用敏捷实践可以成为这个不断上升的成本潮中的一条救生艇。

敏捷工作流程以迭代开发和反馈循环为特点,使数据科学团队能够准确找出存储效率低下的地方。例如,通过专注于数据整合的迭代冲刺,可以避免重复数据集。通过在先前工作的基础上逐步构建并重用数据和代码,敏捷工作流程最大程度地减少了对额外存储资源的需求。

此外,敏捷实践如版本控制和特性分支能够实现高效的数据管理。正确的版本控制使回滚到项目的先前状态变得更容易,从而避免了多个冗余副本的需要,提高了存储节省。

敏捷还意味着更好的资源分配。通过Scrum会议和看板,团队可以透明地看到谁在做什么,从而更明智地分配资源,最大程度地利用人力和机器资源,减少闲置时间,进而减少闲置成本。

敏捷思维还延伸到自动化。通过迭代开发数据提取、转换和加载(ETL)的自动化流程,可以逐步消除手动瓶颈,加快扩展过程,显著降低与人工劳动和错误修正相关的成本。

然而,必须注意的是,敏捷不是一种一刀切的解决方案。团队必须具备适应性,愿意接受反馈并进行必要的转变。数据科学项目是多方面和复杂的,因此对任何一种方法的刚性坚持可能会引入操作盲点和意外成本。

采用敏捷方法来进行规模化操作不仅仅是为了更快地完成事情,更重要的是为了更加智能地完成事情。通过关注迭代改进、透明度和自动化,您能够更好地成功扩展项目,同时控制成本。

第五节:效率,自动化和IT的角色

效率是维系数据科学复杂机制的关键。没有效率,不仅成本会失控,价值实现的时间也会增加,从而抵消了最初采用数据科学的竞争优势。在提高效率方面,往往被忽视的一个关键因素是IT的角色。

传统上,IT部门关注维护系统完整性和基础设施,而数据科学的兴起扩展了他们的角色。如今,他们在建立自动化工作流程和推动敏捷实践的采纳上起到了关键作用,这直接影响了成本效率。

推动效率的一个可行方法是将“Epic”(大块工作)与更小的“Projects”(或由您的数据科学平台支持的等效工作单元)进行映射,将“Tasks/Stories”映射到“Projects”,这种做法通常得到了敏捷方法的支持。这种整合作为一座灯塔,引导团队解决数据科学项目的复杂性。每个“Epic”可以被分解为多个较小的任务或故事,有助于项目范围的确定和角色分配。这不仅促进了透明度,还有助于推动效率。

由IT管理的自动化流水线和CI/CD(持续集成/持续部署)机制进一步增强了这种效率。自动化加速了例行任务的完成,为数据科学家节省了大量时间,使其能够从事更复杂的任务和创新工作。这就是IT无可替代的角色所在。IT可以建立并维护这些流水线,确保数据科学团队拥有一切所需,以高效地工作。

这其中的另一个方面是管理云资源和计算能力。机器学习模型需要强大的计算能力,而这既耗时又昂贵。在这方面,IT可以根据敏捷计划和当前迭代任务,合理分配资源。这避免了计算能力的浪费,确保只使用所需的资源量,从而降低成本。

简而言之,IT的角色正在发展成为在数据科学中实施敏捷实践的推动者,这对于控制成本和提高效率至关重要。通过在数据科学团队中实施敏捷实践和自动化,IT成为支持数据科学敏捷框架的支柱。

第六节:对商业战略和竞争优势的更广泛影响

随着数据科学的不断成熟,它成为业务战略中更有价值的核心组成部分,为获得重大竞争优势提供了途径。通过敏捷方法,数据科学团队可以放大这种影响,将数据科学从一种操作工具提升为战略资产。

在商业战略的领域中,敏捷等同于适应能力和对市场变化的快速响应能力。将敏捷过程融入到数据科学项目中的组织更容易进行转型或扩展,确保他们领先于竞争对手。例如,将复杂项目分解为可管理的“Epics”或“任务票”,有助于高层决策者更好地把握复杂数据科学项目的走向,更合理地分配资源。

此外,敏捷实践促进了持续改进和创新的文化。每个迭代周期结束时,团队会回顾进展并相应地调整未来的迭代。这种迭代过程培养了一个失败不受惩罚而被视为学习机会的环境。在像数据科学这样常常充满不确定性和复杂性的领域,这种文化是一种强大的竞争优势。

此外,敏捷过程有助于管理风险——这是那些希望利用数据科学主导市场空间的组织的一项关键优先事项。敏捷的迭代性与强调持续反馈的特点确保了在过程中及早发现任何风险。这可以及时采取风险缓解策略,确保项目不仅按时完成,而且符合预期的质量标准。

通过关注这些原则,企业可以开启价值的新维度,显著影响底线并在各自领域中确立领导者的地位。

第七节:使用敏捷方法建立模型开发流程的简要教程

在涉及构建机器学习模型的数据科学项目中,导航复杂性可能令人生畏。按照这个逐步指南,使用敏捷方法构建模型开发流程,类似于之前讨论的Jira整合。目标是将这个过程解密,使其对数据科学团队更加易于操作,能够更高效、更有效地工作。

步骤1:定义项目范围和目标

在开始任何项目之前,回答以下问题以形成敏捷项目的基线:

  1. 你要解决的问题是什么?
  2. 成功的衡量标准是什么?

步骤2:拆分成迭代循环或冲刺

将项目分成小的、可管理的部分,也被称为冲刺。这些冲刺的持续时间可能为两到四个星期,具体取决于项目的复杂性和团队对涉及任务的熟悉程度。

步骤3:与更广泛的业务目标建立链接(使用史诗或任务票证)

确保你的数据科学项目以冲刺的形式,与更广泛的业务目标有明确的联系。利用史诗或任务票证来维持这种对齐,让所有参与者,特别是决策者,更容易看到全局。

步骤4:分配角色并创建跨职能团队

在敏捷方法中,由数据科学家、数据工程师和业务分析员组成的跨职能团队至关重要。早期分配角色和责任,以促进顺畅的协作。

步骤5:利用敏捷项目管理工具

类似Jira的工具对于跟踪进度非常有益。这些平台可以有效地分配任务并监控冲刺的进展。

步骤6:促进协作和持续反馈

开放沟通和持续反馈的文化至关重要。鼓励团队成员发表意见和关注,使项目能够根据需要进行调整。

步骤7:监督进展,根据需要进行调整

敏捷项目管理工具可以帮助你轻松监控项目的进展。利用它们,如果事情不按计划进行,敏捷方法允许你快速适应。在当前冲刺中进行必要的调整,或者在下一冲刺中计划进行调整。

步骤8:通过回顾和教训总结

在每个冲刺结束时,以及项目结束时,举行回顾会议,团队讨论进展如何,如何改进未来的冲刺或项目。

结论

在数据科学和机器学习日益重要于推动业务战略和实现竞争优势的世界中,管理成本和提高效率的重要性不可高估。采用敏捷方法为解决这些挑战提供了一个强大的框架。

在寻求扩展数据科学能力时,考虑到良好实施的敏捷方法可以为你的组织带来的重要成本优势。

我们鼓励你深入研究敏捷方法,并在继续数据科学之旅时进行更多阅读或实践培训。通过正确的实践,你的数据科学项目将不仅仅是一个成本中心,而是对更广泛业务目标的有价值贡献。

参考资料

[1] Will Oremus, AI chatbots lose money every time you use them. That is a problem., The Washington Post, June 2023, 上次访问时间:2023年8月30日,https://www.washingtonpost.com/technology/2023/06/05/chatgpt-hidden-cost-gpu-compute/

[2] Andrej Karpathy, State of GPT, Microsoft BUILD, May 23, 2023, https://www.youtube.com/watch?v=bZQun8Y4L2A

Leave a Reply

Your email address will not be published. Required fields are marked *