Press "Enter" to skip to content

17 search results for "ML系统"

MLOps覆盖整个机器学习生命周期:论文摘要

这篇AI论文对MLOps领域进行了广泛的研究。 MLOps是一门新兴的学科,专注于自动化整个机器学习生命周期。调查涵盖了广泛的主题,包括MLOps流水线、挑战和最佳实践。它深入探讨了机器学习过程的各个阶段,从模型需求分析、数据收集、数据准备、特征工程、模型训练、评估、系统部署和模型监控等开始。此外,它还讨论了整个生命周期中的业务价值、质量、人类价值和伦理等重要考虑因素。 该论文旨在全面调查MLOps,并强调其在自动化机器学习生命周期中的重要性。调查涵盖了多个主题,包括MLOps流水线、挑战、最佳实践以及机器学习过程的各个阶段。 本文在下图中提供了一个概览: https://arxiv.org/abs/2304.07296:机器学习流程 模型需求分析 为了启动一个机器学习项目,利益相关者必须分析和确定模型需求。本节概述了四个考虑因素:业务价值、模型质量、人类价值(隐私、公平性、安全性和问责制)以及伦理。鼓励利益相关者定义目标,评估用于识别价值和问题的工具,优先考虑需求,涉及相关利益相关者,并确定必要的功能。 数据收集和准备 数据准备阶段在确保机器学习任务的高质量数据方面起着至关重要的作用。本节介绍了数据收集、数据发现、数据增强、数据生成和ETL(提取、转换、加载)过程。强调了数据质量检查、数据清洗、数据合并、数据匹配以及进行探索性数据分析(EDA)以获得数据集洞察的重要性。 特征工程 特征工程对于提高预测建模性能至关重要。本节重点介绍了特征选择和提取、特征构建、特征缩放、数据标记和特征填充等技术。提到了与每种技术相关的具体算法和方法,包括主成分分析(PCA)、独立成分分析(ICA)以及标准化和归一化。 模型训练 模型训练阶段涵盖了不同类型的机器学习模型,包括有监督学习、无监督学习、半监督学习和强化学习。本节讨论了模型选择,包括为特定问题选择适当模型的过程。还探讨了模型选择的方法,如交叉验证、自助法和随机拆分。还讨论了超参数调优,即优化模型参数的过程。 模型评估 模型评估侧重于使用各种指标评估模型的性能。本节介绍了常见的评估指标,如准确率、精确率、召回率、F值和ROC曲线下的面积(AUC)。强调同时考虑模型性能和业务价值的重要性。 系统部署 系统部署涉及选择适当的ML模型操作平台,集成系统,进行系统集成测试,并将系统发布给最终用户。解释了部署策略,包括金丝雀部署和蓝绿部署。还讨论了部署ML系统所面临的挑战,以及实现顺畅部署过程的提示。 模型监控 本文强调在ML系统中进行模型监控的重要性。强调开发人员在ML模型监控和维护方面缺乏知识和经验。本节探讨了模型监控的各个方面,包括漂移检测、模型监控质量、合规性、系统日志记录和模型解释(XAI)。提供了监控数据分布变化、确保模型性能、符合行业特定标准和法规、用于ML流水线的系统日志记录以及实现模型透明度的洞察。 结论 本文通过讨论MLOps的未来以及需要解决的可扩展性和可靠性挑战来总结。它强调了对机器学习模型进行持续监控和维护的重要性,以实现长期成功。 总之,这份综合调研涵盖了MLOps领域内整个机器学习生命周期。它为MLOps管道、挑战、最佳实践、模型需求分析、数据准备、特征工程、模型训练、评估、系统部署和模型监控提供了宝贵的见解。通过详细研究这些主题,本调研旨在帮助研究人员和从业者全面了解MLOps及其实际意义。

Leave a Comment

谷歌在ICML 2023

由谷歌的程序经理Cat Armato发布 谷歌的各个团队在机器学习(ML)领域积极开展研究,涉及理论和应用等方面。我们构建ML系统来解决语言、音乐、视觉处理、算法开发等领域的深度科学和工程挑战。我们通过开源工具和数据集、发表论文以及积极参与会议,致力于与更广泛的ML研究社区建立更协作的生态系统。 谷歌很自豪成为第40届国际机器学习大会(ICML 2023)的钻石赞助商,这是一场世界一流的年度会议,本周在夏威夷檀香山举行。作为ML研究的领导者,谷歌在今年的会议上有超过120篇被接受的论文,并积极参与多个研讨会和教程。谷歌还自豪地成为拉丁裔AI和机器学习女性研讨会的白金赞助商。我们期待与更广泛的ML研究社区分享我们广泛的ML研究,并扩大我们的合作伙伴关系。 已注册ICML 2023吗?我们希望您能访问谷歌展位,了解解决该领域最有趣挑战的激动人心的工作、创造力和乐趣。请访问@GoogleAI的Twitter账号,了解谷歌展位的活动(例如演示和问答环节)。请查看Google DeepMind的博客,了解他们在ICML 2023的技术参与。 请继续阅读以下内容,了解谷歌在ICML 2023的研究成果(谷歌相关机构以粗体显示)。 委员会和组织委员会 委员会成员包括:Corinna Cortes,Hugo Larochelle。教程主席包括:Hanie Sedghi 谷歌研究展位活动 演讲者:Bryan Perozzi,Anton Tsitsulin,Brandon Mayer。题目:谷歌的无监督图嵌入(论文,EXPO研讨会)。时间:7月25日星期二上午10:30 HST 演讲者:Zheng Xu。题目:使用差分隐私的Gboard语言模型的联邦学习(论文1,论文2,博客文章)。时间:7月25日星期二下午3:30 HST…

Leave a Comment

利用社会背景知识促进人工智能的负责任应用

由Google研究的技术项目经理,社会背景理解工具和解决方案(SCOUTS)主管Donald Martin, Jr.发布 与人工智能相关的产品和技术是在社会背景下构建和部署的:即社会、文化、历史、政治和经济环境的动态和复杂的集合。因为社会背景本质上是动态、复杂、非线性、有争议、主观和高度定性的,所以将其转化为定量表示、方法和实践是具有挑战性的,而标准机器学习(ML)方法和负责任的人工智能产品开发实践则占据主导地位。 AI产品开发的第一个阶段是问题理解,而这个阶段对问题的理解(例如,提高癌症筛查的可用性和准确性)对于ML系统的解决以及许多其他下游决策(例如数据集和ML架构选择)有着巨大的影响。当产品将要操作的社会背景没有被充分表述出来以产生强大的问题理解时,产生的ML解决方案可能脆弱甚至传播不公平的偏见。 当AI产品开发人员缺乏在开发过程中有效理解和考虑社会背景所需的知识和工具时,他们往往会将其抽象化。这种抽象化使他们对他们试图解决的问题具有浅显的定量理解,而产品用户和社会利益相关者——他们与这些问题密切相关,并嵌入相关的社会背景中——往往对这些问题有深入的定性理解。这种定性-定量分歧的方式,将产品用户和社会与开发人员分开对待复杂问题的理解,我们称之为问题理解鸿沟。 这个鸿沟在现实世界中产生了影响:例如,它是一种根本原因,导致了一个广泛使用的医疗保健算法中发现的种族偏见,该算法旨在解决选择具有最复杂医疗需求的患者进入特殊计划的问题。对算法将要操作的社会背景的不完全理解,导致系统设计者形成了关于关键问题因素的错误和过度简化的因果理论。关键的社会结构因素,包括医疗保健的缺乏、对医疗保健系统的不信任以及由于人为偏见而导致的诊断不足,被忽略,而医疗保健支出被强调为复杂健康需求的预测因素。 为了负责地弥合问题理解鸿沟,AI产品开发人员需要工具,使他们能够轻松获得社区经过验证的、结构化的关于复杂社会问题的社会背景知识——从问题理解开始,但在整个产品开发生命周期中都要使用。为此,Google研究内负责AI问题理解和以人为中心的技术(RAI-HCT)团队的一部分的社会背景理解工具和解决方案(SCOUTS)是一个专门的研究团队,致力于“为人们提供可扩展的、可靠的社会背景知识,以实现负责任、强大的AI并解决世界上最复杂的社会问题。”SCOUTS的动力来自于表述社会背景的重大挑战,并进行创新的基础和应用研究,以产生结构化的社会背景知识,并将其整合到与AI相关的产品开发生命周期的所有阶段。去年,我们宣布,Google的孵化器Jigsaw利用我们的结构化社会背景知识方法在模型开发的数据准备和评估阶段扩大了其广泛使用的Perspective API毒性分类器的偏见缓解。今后,SCOUTS的研究议程将重点放在与AI相关的产品开发的问题理解阶段,目标是弥合问题理解鸿沟。 弥合AI问题理解鸿沟 弥合AI问题理解鸿沟需要两个关键要素:1) 用于组织结构化社会背景知识的参考框架;2) 用于征集社区专家关于复杂问题的参与式、非剥夺性方法,并将其表示为结构化知识。SCOUTS在这两个领域都发布了创新研究。 问题理解鸿沟的示意图。 社会背景参考框架 产生结构化知识的基本要素是用于创建组织结构的分类法。SCOUTS与其他RAI-HCT团队(TasC、Impact Lab)、Google DeepMind和外部系统动力学专家合作,共同开发了一个用于社会背景的分类参考框架。为了应对社会背景的复杂、动态和适应性特征,我们利用复杂自适应系统(CAS)理论提出了一个高层次的分类模型,用于组织社会背景知识。该模型强调了社会背景的三个关键要素和将它们联系在一起的动态反馈循环:代理、观念和构件。 代理:可以是个人或机构。 观念:限制和推动代理行为的先入之见,包括信念、价值观、刻板印象和偏见。一个基本观念的例子是“所有篮球运动员身高超过6英尺”。这种限定性的假设可能导致无法识别身材较小的篮球运动员。 构件:代理行为会产生许多种类的构件,包括语言、数据、技术、社会问题和产品。 这些实体之间的关系是动态且复杂的。我们的工作假设规范是社会背景中最关键的元素,我们强调人们感知到的问题和他们对这些问题存在的原因的因果理论,这些理论对于理解社会背景至关重要。例如,在前面描述的医疗算法中存在的种族偏见的情况下,设计师持有的因果理论是复杂的健康问题会导致所有人口群体的医疗支出增加。这个错误的理论直接导致了选择医疗支出作为模型预测复杂医疗需求的代理变量,进而导致模型对于黑人患者存在偏见,因为由于社会因素,比如医疗资源不足和偏见导致的诊断不足,黑人患者在有复杂医疗需求时并不总是花费更多的医疗费用。一个关键的未解决问题是,我们如何在道德和公平的前提下从最贴近不平等问题的人和社区中获取因果理论,并将它们转化为有用的结构化知识? 社会背景参考框架的示意版本。 社会背景参考框架的分类版本。 与社区合作,促进人工智能在医疗保健领域的负责任应用…

Leave a Comment

让我们谈谈机器学习中的偏见!伦理与社会通讯第二期

机器学习中的偏见无处不在,而且机器学习中的偏见非常复杂;事实上,没有单一的技术干预可以有效地解决它所带来的问题。作为社会技术系统,机器学习模型放大了可能加剧不平等和有害偏见的社会趋势,这取决于它们的部署环境并不断演变。 这意味着谨慎地开发机器学习系统需要保持警惕,并对来自部署环境的反馈作出回应,而我们可以通过在不同环境中分享经验教训和开发工具来促进这一过程,以分析每个机器学习开发阶段的偏见迹象。 这篇来自伦理和社会团队的博客文章分享了我们学到的一些教训,以及我们开发的工具,以支持我们和社区中其他人更好地解决机器学习中的偏见问题。第一部分是关于偏见及其背景的广泛反思。如果您已经阅读过它,并且特别关注工具部分,请随意跳转到数据集或模型部分! 🤗 团队成员开发的一些用于解决机器学习中偏见问题的工具 目录: 关于机器偏见 机器偏见:从机器学习系统到风险 将偏见置于背景中 工具和建议 在机器学习开发中解决偏见问题 任务定义 数据集策划 模型训练 🤗 偏见工具概述 机器偏见:从机器学习系统到个人和社会风险 机器学习系统使我们能够在以前从未见过的规模上自动化复杂任务,因为它们在更多的领域和用例中得到应用。当技术发挥最佳作用时,它可以帮助人们与技术系统之间的互动更加顺畅,消除高度重复性的工作需求,或者开辟处理信息的新方式以支持研究。 这些系统同样有可能复制训练数据中所代表的歧视性和滥用行为,特别是当数据编码了人类行为时。这时,技术有可能使这些问题变得更加严重。自动化和大规模部署确实可以: 固化某一时期的行为,阻碍社会进步在技术中得到反映, 扩大有害行为超越原始训练数据的上下文, 通过过度关注刻板印象的关联来放大不平等, 通过将偏见隐藏在“黑盒”系统中,剥夺追索的可能性。 为了更好地理解和解决这些风险,机器学习研究人员和开发人员已经开始研究机器偏见或算法偏见,即可能导致系统在其部署环境中对不同人群产生负面刻板印象或不同绩效的机制。 这些问题对于我们…

Leave a Comment

伦理和社会通讯第三期:Hugging Face的道德开放

使命:开放和良好的机器学习 在我们追求民主化良好的机器学习(ML)的使命中,我们研究如何支持ML社区工作,同时也赋予人们审查和预防可能的危害的能力。开放的发展和科学使权力分散,使许多人能够共同从事反映他们需求和价值的人工智能工作。尽管开放性使广泛的观点能够为研究和整体人工智能做出贡献,但也面临着较少风险控制的紧张局势。 由于这些系统的动态和迅速发展的特性,对ML构件的调节提出了独特的挑战。事实上,随着ML模型变得越来越先进并能够生成越来越多样化的内容,有害或意外输出的潜力增加,需要制定强大的调节和评估策略。此外,ML模型的复杂性和它们处理的大量数据加剧了识别和解决潜在偏见和道德问题的挑战。 作为主办方,我们意识到我们可能会加剧对用户和整个世界的伤害的责任。通常情况下,这些伤害对少数群体的影响是不平等的,具体取决于上下文。我们采取的方法是分析每个上下文中存在的紧张局势,并对公司和Hugging Face社区展开讨论。虽然许多模型可能会加剧伤害,尤其是歧视性内容,但我们正在采取一系列措施来识别风险最高的模型以及采取何种行动。重要的是,来自不同背景的积极观点对于理解、衡量和减轻影响不同人群的潜在危害至关重要。 我们正在开发工具和安全措施,除了改善我们的文档实践,以确保开源科学能够赋予个人力量,同时继续将潜在危害降至最低。 伦理类别 我们推动良好开放ML工作的第一个主要方面是推广那些优先考虑价值观和利益相关方的ML开发工具和积极实例。这有助于用户采取具体步骤解决未解决的问题,并提出可行的替代方案,以摒弃ML开发中的有害实践。 为了帮助用户发现和参与与伦理相关的ML工作,我们编制了一组标签。这6个高级类别是基于社区成员贡献的空间的分析而确定的。它们旨在为您提供一种无专业术语的思考伦理技术的方式: 严谨的工作特别关注以最佳实践为导向的开发。在ML中,这可能意味着研究失败案例(包括进行偏见和公平性审计),通过安全措施保护隐私,并确保潜在用户(技术和非技术人员)了解项目的限制。 同意的工作支持使用和受这些技术影响的人的自主权。 有社会意识的工作向我们展示了技术如何支持社会、环境和科学努力。 可持续的工作强调并探索使机器学习在生态上可持续的技术。 包容性的工作扩大了机器学习世界中谁进行构建和受益的范围。 好奇的工作揭示了挑战社区对技术与其关系的重新思考的不平等和权力结构。 了解更多信息,请访问https://huggingface.co/ethics 请留意这些术语,因为我们将在Hub上的一些新项目中使用这些标签,并根据社区贡献进行更新! 保障措施 将开放发布视为“全有或全无”的观点忽视了决定ML构件正面或负面影响的广泛背景。对ML系统共享和重复使用具有更多控制杠杆支持协作开发和分析,减少了促进有害使用或滥用的风险;为了实现更多的开放和创新参与,以共享利益为目的。 我们直接与贡献者互动,并解决紧迫的问题。为了将其提升到下一个层次,我们正在建立基于社区的流程。这种方法赋予Hugging Face贡献者和受贡献者影响的人权力,以确定限制、共享和额外机制,以确保在我们的平台上提供的模型和数据。我们将关注的三个主要方面是:构件的起源、构件的处理方式以及构件的使用情况。在这方面,我们: 为我们的社区推出了标记功能,以确定ML构件或社区内容(模型、数据集、空间或讨论)是否违反我们的内容准则, 监控我们的社区讨论板,以确保Hub用户遵守行为守则, 以详细介绍社会影响、偏见和预期使用案例以及超出范围使用案例的模型卡的方式充实我们下载量最多的模型的文档, 创建面向受众的标签,例如“不适合所有受众”的标签,可添加到存储库的卡片元数据中,以避免未经请求的暴力和性内容,…

Leave a Comment

Can't find what you're looking for? Try refining your search: