Tag: MLOps

通过敏捷数据科学项目管理来控制AI成本

Published December 10, 2023 by 四海吧

数据科学的世界非常复杂，隐藏着超出预算限制的隐藏成本数据科学家对于任何组织都是一项重大投资然而，不幸的是，像闲置等效率低下的问题…

Leave a Comment

部署自定义ML模型作为SageMaker端点

Published December 8, 2023 by 四海吧

从数据收集到模型部署，开发一个机器学习（ML）模型涉及到关键步骤在通过测试完善算法和确保性能之后，最后一个关键步骤是…

Leave a Comment

回归、个性化和Kaggle综合征

Published November 8, 2023 by 四海吧

最近，我做了一个使用Kaggle黑色星期五预测数据集进行预测案例研究的工作，该数据集创建于六年前，已经下载了超过32,000次虽然有超过100…

Leave a Comment

介绍在当今数字化的世界中，人们越来越倾向于通过在线交易和数字支付来进行交易，而不是使用现金，这是因为它的便利性。随着过渡的增加，欺诈行为也在增加。欺诈交易可以是任何类型，因为它涉及使用虚假身份或虚假信息要求钱款。这给个人和金融机构带来了重大问题。在这个项目中，我们将使用信用卡数据集来设计使用Airflow工具监控实时交易并预测其是否真实或欺诈的MLOPs模型。学习目标检测欺诈交易的重要性。清理数据，转换数据集和预处理数据。对数据集进行可视化分析以获得洞察力。在数据科学中使用欺诈交易检测模型的实际应用。使用Python编程语言进行欺诈交易数据分析使用MS Azure和Airflow构建端到端的欺诈检测本文作为数据科学博文马拉松的一部分发布。什么是欺诈交易估计模型？欺诈交易数据集包含来自不同来源的数据，其中包含交易时间、姓名、金额、性别、类别等列。欺诈交易估计模型是一个用于预测虚假交易的机器学习模型。该模型是在大量有效交易和欺诈交易的基础上进行训练的，以预测新的虚假交易。什么是欺诈交易分析？欺诈交易分析是分析过去数据集的过程。数据集分析旨在发现数据中的异常情况并找出数据集中的模式。欺诈交易分析在保护客户和减少财务损失方面起着关键作用。有不同类型的欺诈交易分析，例如基于规则的分析和异常检测。基于规则的分析：基于规则的分析涉及创建规则来标记无效交易。例如，可以根据地理区域制定规则。异常检测：异常检测涉及发现异常或异常的交易。例如，从新的IP地址进行的交易。检测欺诈交易的重要性对于企业和金融机构来说，检测欺诈交易对于保护客户免受欺诈和保护他们的资金至关重要。以下是检测欺诈交易的一些关键原因。减少财务损失：欺诈交易给企业带来巨额财务损失，从而减少它们的利润。因此，企业检测欺诈交易变得至关重要。维护声誉：维护声誉对于企业来说是至关重要的，因为它会导致潜在客户和顾客的流失。保护客户和企业：欺诈交易可能对客户造成财务损失和情感影响。通过检测欺诈交易，企业可以保护客户和他们的业务。数据收集和预处理数据收集和预处理是开发欺诈检测模型的重要部分。一旦收集到数据，需要对数据集执行多个步骤。数据清理：数据清理包括删除不需要的数据，例如重复数据，并填充缺失的数据值。…

Leave a Comment

从数据平台到机器学习平台

Published October 26, 2023 by 四海吧

在我们的技术领域中，数据/机器学习一直是最热门的话题我想分享一下我对数据/机器学习平台的理解，以及这些平台从基础到复杂的演变最后，我会尽力…

Leave a Comment

分支是你所需要的一切：我们的具有个人观点的ML版本管理框架

Published October 17, 2023 by 四海吧

使用Git分支对机器学习项目进行简单版本管理，简化工作流程，整理数据和模型，并将项目中相关部分连接在一起的简单方法

Leave a Comment

在数据科学中使用MLOps实施基于需求的酒店房间定价

Published October 13, 2023 by 四海吧

介绍在Covid期间，酒店业的收入大幅下降。因此，当人们开始更多地旅行时，吸引顾客仍然是一个挑战。我们将开发一种机器学习工具来解决这个问题，并设置试衣间以吸引更多顾客。利用酒店的数据集，我们将建立一个人工智能工具来选择正确的房价，提高入住率，增加酒店的收入。学习目标设置酒店房间正确价格的重要性。清洗数据，转换数据集和预处理数据集。使用酒店预订数据创建地图和可视化图表。数据科学中使用酒店预订数据分析的实际应用。使用Python编程语言进行酒店预订数据分析。本文作为数据科学博客马拉松的一部分发表。什么是酒店房价数据集？酒店预订数据集包含来自不同来源的数据，包括酒店类型、成人数量、停留时间、特殊要求等列。这些值可以帮助预测酒店房价，从而增加酒店的收入。酒店房价分析是什么？在酒店房价分析中，我们将分析数据集的模式和趋势。根据这些信息，我们将进行与定价和运营相关的决策。这些决策将受到多个因素的影响。季节性：房价在旺季（如假期）大幅上涨。需求：当需求高时（如庆典活动或体育赛事），房价会上涨。竞争：酒店房价受附近酒店价格的影响很大。如果一个地区的酒店数量过多，则房价会降低。设施：如果酒店有游泳池、水疗中心和健身房等设施，它们会对这些设施收取更高的费用。位置：位于主要城镇的酒店相比较而言可以收费更高。正确设置酒店房价的重要性设置房价对于增加收入和利润至关重要。正确设置酒店房价的重要性如下：最大化收入：房价是增加收入的主要关键。通过设置有竞争力的价格，酒店可以增加收入。增加客户：当房价公平时，更多客人会预订酒店。这有助于增加入住率。最大化利润：酒店试图提高价格以增加利润。然而，提高价格会减少客人数量，而正确设置价格会增加客人数量。收集数据和预处理数据收集和预处理是酒店房价分析的重要部分。数据是从酒店网站、预订网站和公共数据集收集的。然后将该数据集转换为可视化所需的格式。在预处理过程中，数据集经历数据清洗和转换。新转换的数据集用于可视化和模型构建。…

Leave a Comment

在云中部署您的机器学习模型的生产

Published October 7, 2023 by 四海吧

学习在AWS上托管一个活模特的简单方法

Leave a Comment

实验、模型培训与评估：通过使用AWS SageMaker探索6个关键MLOps问题

Published September 29, 2023 by 四海吧

这篇文章是AWS SageMaker系列的一部分，旨在探索“塑造财富500机器学习策略的31个问题”之前的博客文章有“数据采集与探索”和“数据…”

Leave a Comment

使用Llama和ChatGPT构建多聊天后端的微服务

Published September 14, 2023 by 四海吧

随着LLMs的不断发展，整合多个模型或在它们之间切换变得越来越具有挑战性本文建议采用微服务的方法，将模型集成与业务应用分离，从而简化这一过程

Leave a Comment

构建更好的机器学习系统 —— 第三章：建模让乐趣开始

Published September 3, 2023 by 四海吧

你好回来很高兴再次见到你我非常欣赏你想要成为一个更好的专业人士，做更好的工作，建立更好的机器学习系统的愿望你很棒，继续努力！在这个系列中，我…

Leave a Comment

用这本免费电子书学习MLOps基础知识

Published August 31, 2023 by 四海吧

立即下载这本免费的电子书，了解MLOps的基础知识

Leave a Comment

LangChain + Streamlit + Llama：将对话式人工智能带到您的本地机器

Published August 26, 2023 by 四海吧

集成开源LLM和LangChain用于免费生成式问答（无需API密钥）

Leave a Comment

MLOps是什么

Published August 25, 2023 by 四海吧

MLOps是一套方法和技术，可可靠而高效地部署和维护生产中的机器学习（ML）模型因此，MLOps是机器学习、DevOps和…的交集

Leave a Comment

“ML流水线架构设计模式（附带10个真实世界的示例）”

Published August 22, 2023 by 四海吧

每个机器学习从业者都会意识到，在Jupyter Notebook中训练模型只是整个项目的一小部分准备好一个工作流程，将数据从原始形式转化为预测结果，同时保持响应性和灵活性，才是真正重要的此时，数据科学家或…

Leave a Comment

MLOps覆盖整个机器学习生命周期：论文摘要

Published July 29, 2023 by 四海吧

这篇AI论文对MLOps领域进行了广泛的研究。 MLOps是一门新兴的学科，专注于自动化整个机器学习生命周期。调查涵盖了广泛的主题，包括MLOps流水线、挑战和最佳实践。它深入探讨了机器学习过程的各个阶段，从模型需求分析、数据收集、数据准备、特征工程、模型训练、评估、系统部署和模型监控等开始。此外，它还讨论了整个生命周期中的业务价值、质量、人类价值和伦理等重要考虑因素。该论文旨在全面调查MLOps，并强调其在自动化机器学习生命周期中的重要性。调查涵盖了多个主题，包括MLOps流水线、挑战、最佳实践以及机器学习过程的各个阶段。本文在下图中提供了一个概览： https://arxiv.org/abs/2304.07296：机器学习流程模型需求分析为了启动一个机器学习项目，利益相关者必须分析和确定模型需求。本节概述了四个考虑因素：业务价值、模型质量、人类价值（隐私、公平性、安全性和问责制）以及伦理。鼓励利益相关者定义目标，评估用于识别价值和问题的工具，优先考虑需求，涉及相关利益相关者，并确定必要的功能。数据收集和准备数据准备阶段在确保机器学习任务的高质量数据方面起着至关重要的作用。本节介绍了数据收集、数据发现、数据增强、数据生成和ETL（提取、转换、加载）过程。强调了数据质量检查、数据清洗、数据合并、数据匹配以及进行探索性数据分析（EDA）以获得数据集洞察的重要性。特征工程特征工程对于提高预测建模性能至关重要。本节重点介绍了特征选择和提取、特征构建、特征缩放、数据标记和特征填充等技术。提到了与每种技术相关的具体算法和方法，包括主成分分析（PCA）、独立成分分析（ICA）以及标准化和归一化。模型训练模型训练阶段涵盖了不同类型的机器学习模型，包括有监督学习、无监督学习、半监督学习和强化学习。本节讨论了模型选择，包括为特定问题选择适当模型的过程。还探讨了模型选择的方法，如交叉验证、自助法和随机拆分。还讨论了超参数调优，即优化模型参数的过程。模型评估模型评估侧重于使用各种指标评估模型的性能。本节介绍了常见的评估指标，如准确率、精确率、召回率、F值和ROC曲线下的面积（AUC）。强调同时考虑模型性能和业务价值的重要性。系统部署系统部署涉及选择适当的ML模型操作平台，集成系统，进行系统集成测试，并将系统发布给最终用户。解释了部署策略，包括金丝雀部署和蓝绿部署。还讨论了部署ML系统所面临的挑战，以及实现顺畅部署过程的提示。模型监控本文强调在ML系统中进行模型监控的重要性。强调开发人员在ML模型监控和维护方面缺乏知识和经验。本节探讨了模型监控的各个方面，包括漂移检测、模型监控质量、合规性、系统日志记录和模型解释（XAI）。提供了监控数据分布变化、确保模型性能、符合行业特定标准和法规、用于ML流水线的系统日志记录以及实现模型透明度的洞察。结论本文通过讨论MLOps的未来以及需要解决的可扩展性和可靠性挑战来总结。它强调了对机器学习模型进行持续监控和维护的重要性，以实现长期成功。总之，这份综合调研涵盖了MLOps领域内整个机器学习生命周期。它为MLOps管道、挑战、最佳实践、模型需求分析、数据准备、特征工程、模型训练、评估、系统部署和模型监控提供了宝贵的见解。通过详细研究这些主题，本调研旨在帮助研究人员和从业者全面了解MLOps及其实际意义。

Leave a Comment

监控大型语言模型行为的7种方法

Published July 28, 2023 by 四海吧

自然语言处理领域在使用大型语言模型（LLM）方面取得了快速发展通过其令人印象深刻的文本生成和文本理解能力，LLM能够…

Leave a Comment

机器学习简化和标准化的顶级工具

Published July 24, 2023 by 四海吧

人工智能和机器学习作为世界从技术中受益的领域的创新领导者。选择使用哪种工具可能会很困难，因为市场上有很多流行的工具来保持竞争力。选择机器学习工具就是选择未来。由于人工智能领域的一切都发展得如此迅速，保持“老狗，老把戏”和“刚做出来昨天”的平衡非常重要。机器学习工具的数量正在扩大；随之而来的要求是评估它们并理解如何选择最好的工具。在本文中，我们将介绍一些知名的机器学习工具。此评测将涵盖机器学习库、框架和平台。 Hermione 最新的开源库Hermione将使数据科学家更容易、更快地设置更有序的脚本。此外，Hermione还提供了数据视图、文本向量化、列归一化和反归一化等主题的课程，这些课程有助于日常工作。有了Hermione，您只需遵循一套程序，剩下的事情都会由她来处理，就像魔术一样。 Hydra 名为Hydra的开源Python框架使创建复杂的研究应用程序变得更加容易。Hydra的命名来源于其管理许多相关任务的能力，就像一个有着许多头的九头蛇一样。其主要功能是能够动态地组合层次结构配置，并通过配置文件和命令行进行覆盖。另一个特性是动态命令行选项补全。它可以从各种来源进行层次化配置，并且配置可以从命令行提供或更改。此外，它可以启动程序以在远程或本地运行，并使用一个命令执行多个任务，并带有不同的参数。 Koalas Koalas项目将pandas DataFrame API集成到Apache Spark之上，以提高数据科学家在处理大量数据时的生产力。 Pandas是事实上的（单节点）Python DataFrame实现，而Spark是大规模数据处理的事实上的标准。如果您已经熟悉pandas，您可以使用此软件包立即开始使用Spark，并避免任何学习曲线。一个代码库同时兼容Spark和Pandas（测试、较小的数据集）（分布式数据集）。 Ludwig Ludwig是一个声明式机器学习框架，为定义机器学习流程提供了一种简单灵活的数据驱动配置方法。Linux基金会AI＆Data托管Ludwig，可用于各种人工智能活动。在配置中声明输入和输出特征以及适当的数据类型。用户可以指定其他参数来预处理、编码和解码特征，从预训练模型中加载数据，构建内部模型架构，调整训练参数或进行超参数优化。 Ludwig将根据配置的显式参数自动创建端到端的机器学习流程，对于那些没有指定设置的情况，会回退到智能默认值。 MLNotify 使用开源程序MLNotify，只需一行导入语句，即可在模型训练结束时向您发送在线、手机和电子邮件通知。MLNotify是一个附加到知名机器学习库的fit()函数的Python库，在过程完成后通知用户。每个数据科学家都知道，在训练了数百个模型后，等待训练结束是很乏味的。因为训练需要一些时间，您需要来回切换以偶尔检查它。一旦训练开始，MLNotify将为您打印出特定的跟踪URL。您有三种输入代码的选项：扫描QR码、复制URL或浏览https://mlnotify.aporia.com。然后，您可以看到训练的进展。训练结束后，您将立即收到通知。您可以启用在线、手机或电子邮件通知，以在训练结束后立即收到提醒。 PyCaret 通过开源的基于Python的PyCaret模块，可以自动化机器学习的工作流程。PyCaret是一个简短、简单易懂的Python低代码机器学习库，可以让您花更多时间进行分析，而不是开发。有许多数据准备选项可用。从特征工程到缩放。PyCaret的设计是模块化的，每个模块都有特定的机器学习操作。…

Leave a Comment

2023年超参数优化的顶级工具/平台

Published July 21, 2023 by 四海吧

超参数是用于调节算法在创建模型时的行为的参数。这些因素无法通过常规训练来发现。在训练模型之前，必须对其进行分配。选择产生最佳性能的超参数组合的过程被称为机器学习中的超参数优化或调整。根据任务的不同，有几种自动优化方法，每种方法都有其优点和缺点。随着深度学习模型的复杂性增加，用于优化超参数的工具数量也在增加。对于超参数优化（HPO），通常有两种类别的工具包：依赖云计算资源的开源工具和服务。下面展示了用于ML模型的顶级超参数优化库和工具。贝叶斯优化基于贝叶斯推断和高斯过程，一种名为BayesianOptimisation的Python程序使用贝叶斯全局优化来找到未知函数的最大值，迭代次数最少。这种方法最适用于高成本函数优化，其中在探索和开发之间取得正确平衡至关重要。 GPyOpt GPyOpt是一个基于贝叶斯优化的Python开源包。它使用GPy构建，GPy是一个用于建模高斯过程的Python框架。该库可以创建湿实验、自动设置模型和机器学习方法等。 Hyperopt Hyperopt是一个用于串行和并行优化的Python模块，可以包含条件、离散和实值维度的搜索空间。对于希望进行超参数优化（模型选择）的Python用户，它提供了并行化的技术和基础设施。该库支持的贝叶斯优化技术基于回归树和高斯过程。 Keras Tuner 使用Keras Tuner模块，我们可以找到机器学习模型的理想超参数。该库包含了HyperResNet和HyperXception两个预构建的可自定义的计算机视觉程序。度量优化引擎（MOE）度量优化引擎（MOE）是一个用于最佳实验设计的开源黑盒贝叶斯全局优化引擎。当评估参数需要时间或金钱时，MOE是一种有用的系统参数优化方法。它可以帮助解决各种问题，例如通过A/B测试最大化系统的点击率或转化率，调整昂贵批处理作业或机器学习预测方法的参数，设计工程系统或确定实验的理想参数。 Optuna Optuna是一个用于自动超参数优化的软件框架，非常适用于机器学习。它提供了一个用户API，具有命令式、按运行定义搜索空间的设计，可以动态构建超参数的搜索空间。该框架提供了许多库，用于平台无关的架构、简单的并行化和Pythonic的搜索空间。 Ray Tune Ray Tune是一个用于耗时任务（如深度学习和强化学习）的超参数优化框架。该框架具有多种用户友好的功能，包括可配置的试验变体创建、网格搜索、随机搜索和条件参数分布，以及可扩展的搜索算法实现，包括Population Based Training（PBT）、Median…

Leave a Comment

机器学习（ML）实验追踪和管理的顶级工具（2023）

Published July 20, 2023 by 四海吧

在机器学习项目中，获得单个模型训练运行的良好结果是一回事，但保持机器学习试验的良好组织并从中得出可靠结论是另一回事。实验跟踪为这些问题提供了解决方案。机器学习中的实验跟踪是保留每个实验的所有相关数据的实践。实验跟踪由机器学习团队以多种方式实施，包括使用电子表格、GitHub或内部平台。然而，使用专门用于管理和跟踪机器学习实验的工具是最高效的选择。以下是机器学习实验跟踪和管理的顶级工具 Weight & Biases Weight & Biases是一个用于模型管理、数据集版本控制和实验监控的机器学习框架。实验跟踪组件的主要目标是帮助数据科学家记录模型训练过程的每个步骤，可视化模型并比较试验。 Weight & Biases可以在本地和云端使用。Weights & Biases在集成方面支持多种不同的框架和库，包括Keras、PyTorch环境、TensorFlow、Fastai、Scikit-learn等。 Comet 数据科学家可以使用Comet ML平台跟踪、比较、解释和优化实验和模型，从训练到生产的整个模型生命周期。对于实验跟踪，数据科学家可以记录数据集、代码更改、实验历史和模型。 Comet提供给团队、个人、学术机构和企业使用，适用于希望进行实验、促进工作并快速可视化结果的所有人。它可以在本地安装或用作托管平台。 Sacred + Omniboard 机器学习研究人员可以使用开源程序Sacred配置、安排、记录和复制实验。尽管Sacred缺乏出色的用户界面，但您可以将其与一些仪表盘工具（如Omniboard，还可以使用其他集成，如Sacredboard或Neptune）进行链接。尽管Sacred缺乏其他工具的可扩展性，并且没有为团队协作而设计（除非与其他工具结合使用），但它对于独立研究有很多可能性。 MLflow…

Leave a Comment

生成式人工智能和MLOps：高效和有效的人工智能开发的强大组合

Published July 20, 2023 by 四海吧

人工智能在几乎所有可能的领域都取得了显著的进展。它给创造力提供了翅膀，提升了分析和决策能力。在过去几个月中，生成式人工智能变得越来越受欢迎。从组织到人工智能研究人员，每个人都在探索生成式人工智能在产生独特和原创内容方面的巨大潜力，而且还可以在各个领域产生这些内容。什么是生成式人工智能？生成式人工智能是指使用算法来生成、操纵和合成数据的任何类型的过程。它可以解释为人工智能的一个子集，通过从现有数据中学习来生成新数据。新内容具有一定的创造力和独特特征，可以是图像或可读文本形式的数据，并生成之前不存在的内容。生成式人工智能如何被使用？生成式人工智能自引入以来一直在快速发展。大型语言模型（LLMs）的发展可以说是生成式人工智能突然增长的主要原因之一。LLMs是设计用于处理自然语言和生成类似人类回应的人工智能模型。OpenAI的GPT-4和Google的BERT是近年来取得重大进展的杰出示范，从聊天机器人和虚拟助手的开发到内容创作。生成式人工智能被应用于内容创作、虚拟助手的开发、人类模仿聊天机器人、游戏等领域。生成式人工智能也被应用于医疗保健行业，为患者生成个性化的治疗计划，提高医疗诊断的准确性等。什么是MLOps？随着每个公司都试图将AI ML的潜力融入其服务和产品中，MLOps变得越来越受欢迎。MLOps（机器学习运营）是机器学习工程的一个重要功能，主要关注将ML模型投入生产，并进行后续维护和监控的流程优化。它结合了DevOps和ML的特点，帮助组织以最少的资源和最高的效率设计稳健的ML流水线。 MLOps在提升生成式人工智能能力方面的优势生成式人工智能的训练和部署模型的复杂性需要大量的计算资源和专用基础设施。与生成式人工智能结合使用时，MLOps可以通过提供一个管理生成式人工智能模型的开发和部署的优秀框架，以及自动化所涉及的流程来解决这些挑战。对于组织来改善基础设施，整合MLOps可以帮助它们在生成式人工智能应用中包括参数优化、自动化部署和扩展等功能而无需额外的人工成本。 MLOps为生成式人工智能提供的主要优势是效率、可扩展性和风险降低。除此之外，MLOps还可以在以下方面做出贡献：数据管理：MLOps可以帮助管理用于训练生成式人工智能模型的大量数据，确保数据质量高、多样性，并符合所需领域的要求。模型开发：MLOps可以在整个模型开发过程中提供帮助，包括训练、测试和验证，并提供版本控制、代码审核等工具。部署：MLOps可以帮助自动化部署生成式人工智能模型，简化生产过程。扩展：MLOps可以帮助处理不断增长的流量。包括提供管理基础设施和数据量的工具。监控和维护：MLOps可以通过检测问题、检查性能异常等方式监控工作中的生成式人工智能模型的性能。结论由于更多数据的可用性、计算技术的进步以及生成独特和创新内容的能力，生成式人工智能正变得越来越受欢迎。通过引入MLOps，它可以在管理生成式人工智能模型的生命周期中发挥关键作用，从而充分发挥产品和应用的潜力。

Leave a Comment