119 search results for "MLOps"

从实验到部署：MLflow 101 | 第02部分

Published August 23, 2023 by 四海吧

你好👋，欢迎来到这篇博客的第二部分！如果你从一开始就一直关注我们，你就会知道在第一部分中，我们设计了一个用户界面来简化…

Leave a Comment

“ML流水线架构设计模式（附带10个真实世界的示例）”

Published August 22, 2023 by 四海吧

每个机器学习从业者都会意识到，在Jupyter Notebook中训练模型只是整个项目的一小部分准备好一个工作流程，将数据从原始形式转化为预测结果，同时保持响应性和灵活性，才是真正重要的此时，数据科学家或…

Leave a Comment

推介ODSC West 2023的专题追踪——突出Gen AI和LLMs

Published August 22, 2023 by 四海吧

随着我们进入年底，我们将全力以赴地关注于2021年10月30日至11月2日在AI繁荣的中心（线下）或您的电脑上（线上）举办的ODSC West今年我们将提供更多的培训课程、专家指导的研讨会…

Leave a Comment

使用AWS SageMaker Data Wrangler中的新功能优化数据准备

Published August 5, 2023 by 四海吧

“数据准备是任何数据驱动项目中至关重要的一步，拥有合适的工具可以极大地提高运营效率亚马逊SageMaker Data Wrangler可以将聚合和准备表格和图像数据用于机器学习（ML）的时间从几周缩短到几分钟通过SageMaker Data Wrangler，您可以简化[…]”

Leave a Comment

您现在可以随时观看生成式人工智能峰会！

Published July 31, 2023 by 四海吧

我们有史以来的第一届生成式人工智能峰会已经结束，取得了巨大成功在这一天的活动中，超过3500人参与其中，了解生成式人工智能的用途、如何构建应用程序以及相关话题的讨论活动期间有两个主题，你…

Leave a Comment

使用Amazon SageMaker JumpStart在VPC模式下，无需互联网连接，使用生成式AI基础模型

Published July 26, 2023 by 四海吧

随着生成式人工智能的最新进展，关于如何将生成式人工智能应用于不同行业以解决特定业务问题的讨论越来越多生成式人工智能是一种可以创建新内容和想法的人工智能类型，包括对话、故事、图像、视频和音乐所有这些都由非常庞大的模型所支持[…]

Leave a Comment

AI反馈循环：在AI生成内容时维护模型生产质量的时代

Published July 25, 2023 by 四海吧

探索如何利用AI反馈循环在生成型AI的背景下，帮助维持模型质量、提高效率和改善性能

Leave a Comment

人工智能和机器学习作为世界从技术中受益的领域的创新领导者。选择使用哪种工具可能会很困难，因为市场上有很多流行的工具来保持竞争力。选择机器学习工具就是选择未来。由于人工智能领域的一切都发展得如此迅速，保持“老狗，老把戏”和“刚做出来昨天”的平衡非常重要。机器学习工具的数量正在扩大；随之而来的要求是评估它们并理解如何选择最好的工具。在本文中，我们将介绍一些知名的机器学习工具。此评测将涵盖机器学习库、框架和平台。 Hermione 最新的开源库Hermione将使数据科学家更容易、更快地设置更有序的脚本。此外，Hermione还提供了数据视图、文本向量化、列归一化和反归一化等主题的课程，这些课程有助于日常工作。有了Hermione，您只需遵循一套程序，剩下的事情都会由她来处理，就像魔术一样。 Hydra 名为Hydra的开源Python框架使创建复杂的研究应用程序变得更加容易。Hydra的命名来源于其管理许多相关任务的能力，就像一个有着许多头的九头蛇一样。其主要功能是能够动态地组合层次结构配置，并通过配置文件和命令行进行覆盖。另一个特性是动态命令行选项补全。它可以从各种来源进行层次化配置，并且配置可以从命令行提供或更改。此外，它可以启动程序以在远程或本地运行，并使用一个命令执行多个任务，并带有不同的参数。 Koalas Koalas项目将pandas DataFrame API集成到Apache Spark之上，以提高数据科学家在处理大量数据时的生产力。 Pandas是事实上的（单节点）Python DataFrame实现，而Spark是大规模数据处理的事实上的标准。如果您已经熟悉pandas，您可以使用此软件包立即开始使用Spark，并避免任何学习曲线。一个代码库同时兼容Spark和Pandas（测试、较小的数据集）（分布式数据集）。 Ludwig Ludwig是一个声明式机器学习框架，为定义机器学习流程提供了一种简单灵活的数据驱动配置方法。Linux基金会AI＆Data托管Ludwig，可用于各种人工智能活动。在配置中声明输入和输出特征以及适当的数据类型。用户可以指定其他参数来预处理、编码和解码特征，从预训练模型中加载数据，构建内部模型架构，调整训练参数或进行超参数优化。 Ludwig将根据配置的显式参数自动创建端到端的机器学习流程，对于那些没有指定设置的情况，会回退到智能默认值。 MLNotify 使用开源程序MLNotify，只需一行导入语句，即可在模型训练结束时向您发送在线、手机和电子邮件通知。MLNotify是一个附加到知名机器学习库的fit()函数的Python库，在过程完成后通知用户。每个数据科学家都知道，在训练了数百个模型后，等待训练结束是很乏味的。因为训练需要一些时间，您需要来回切换以偶尔检查它。一旦训练开始，MLNotify将为您打印出特定的跟踪URL。您有三种输入代码的选项：扫描QR码、复制URL或浏览https://mlnotify.aporia.com。然后，您可以看到训练的进展。训练结束后，您将立即收到通知。您可以启用在线、手机或电子邮件通知，以在训练结束后立即收到提醒。 PyCaret 通过开源的基于Python的PyCaret模块，可以自动化机器学习的工作流程。PyCaret是一个简短、简单易懂的Python低代码机器学习库，可以让您花更多时间进行分析，而不是开发。有许多数据准备选项可用。从特征工程到缩放。PyCaret的设计是模块化的，每个模块都有特定的机器学习操作。…

Leave a Comment

Meta的两个基础模型现已在Amazon SageMaker JumpStart上可用

Published July 21, 2023 by 四海吧

今天，我们很高兴地宣布，由Meta开发的Llama 2基础模型现在可以通过Amazon SageMaker JumpStart提供给客户Llama 2系列大型语言模型（LLM）是一组预训练和微调的生成文本模型，参数范围从70亿到700亿被微调的LLM称为Llama-2-chat，[…]

Leave a Comment

机器学习（ML）实验追踪和管理的顶级工具（2023）

Published July 20, 2023 by 四海吧

在机器学习项目中，获得单个模型训练运行的良好结果是一回事，但保持机器学习试验的良好组织并从中得出可靠结论是另一回事。实验跟踪为这些问题提供了解决方案。机器学习中的实验跟踪是保留每个实验的所有相关数据的实践。实验跟踪由机器学习团队以多种方式实施，包括使用电子表格、GitHub或内部平台。然而，使用专门用于管理和跟踪机器学习实验的工具是最高效的选择。以下是机器学习实验跟踪和管理的顶级工具 Weight & Biases Weight & Biases是一个用于模型管理、数据集版本控制和实验监控的机器学习框架。实验跟踪组件的主要目标是帮助数据科学家记录模型训练过程的每个步骤，可视化模型并比较试验。 Weight & Biases可以在本地和云端使用。Weights & Biases在集成方面支持多种不同的框架和库，包括Keras、PyTorch环境、TensorFlow、Fastai、Scikit-learn等。 Comet 数据科学家可以使用Comet ML平台跟踪、比较、解释和优化实验和模型，从训练到生产的整个模型生命周期。对于实验跟踪，数据科学家可以记录数据集、代码更改、实验历史和模型。 Comet提供给团队、个人、学术机构和企业使用，适用于希望进行实验、促进工作并快速可视化结果的所有人。它可以在本地安装或用作托管平台。 Sacred + Omniboard 机器学习研究人员可以使用开源程序Sacred配置、安排、记录和复制实验。尽管Sacred缺乏出色的用户界面，但您可以将其与一些仪表盘工具（如Omniboard，还可以使用其他集成，如Sacredboard或Neptune）进行链接。尽管Sacred缺乏其他工具的可扩展性，并且没有为团队协作而设计（除非与其他工具结合使用），但它对于独立研究有很多可能性。 MLflow…

Leave a Comment

ODSC Europe 2023的图片和亮点

Published July 18, 2023 by 四海吧

我们距离2023年的ODSC欧洲大会已经过了几个星期，我们在一个更好的状态下离开了整个星期都充满了关于数据科学的热门话题、人工智能创新以及我们已经有一段时间没有见到的笑脸以下是ODSC大会的一些亮点…

Leave a Comment

“Hugging Face的夏天”

Published July 18, 2023 by 四海吧

夏天正式结束了，过去的几个月里，Hugging Face非常忙碌。从Hub上的新功能到研究和开源开发，我们的团队一直在努力通过开放和协作的技术来赋能社区。在这篇博客文章中，您将了解到Hugging Face在六月、七月和八月发生的一切！本文涵盖了我们团队一直在努力的各个领域，所以请随意跳到您最感兴趣的部分🤗 新功能社区开源解决方案研究新功能在过去的几个月里，Hub的公共模型仓库从10,000个增加到了16,000多个！感谢我们的社区与世界分享了这么多令人惊叹的模型。除了数量，我们还有很多很酷的新功能要与您分享！ Spaces Beta ( hf.co/spaces ) Spaces是一个简单且免费的解决方案，可以直接在您的用户个人资料或您的组织hf.co个人资料上托管机器学习演示应用程序。我们支持两个很棒的Python SDK，让您可以轻松构建酷炫的应用程序：Gradio和Streamlit。只需几分钟，您就可以部署一个应用程序并与社区分享！🚀 Spaces可以设置秘密，允许自定义要求，甚至可以直接从GitHub仓库进行管理。您可以在hf.co/spaces上注册beta版本。以下是我们的一些收藏！使用Chef Transformer创建食谱使用HuBERT将语音转写为文本在视频中进行分割，使用DINO模型使用Paint…

Leave a Comment

使用Hugging Face Transformers和Amazon SageMaker部署GPT-J 6B进行推理

Published July 17, 2023 by 四海吧

将近6个月前的这一天，EleutherAI发布了GPT-J 6B，这是OpenAI GPT-3的一个开源替代品。GPT-J 6B是EleutherAI的GPT-NEO系列的继任者，该系列是基于GPT架构的基于Transformer的语言模型，用于文本生成。 EleutherAI的主要目标是训练一个与GPT-3相同规模的模型，并以开放许可的形式向公众提供。在过去的6个月里，GPT-J引起了研究人员、数据科学家甚至软件开发人员的极大兴趣，但将GPT-J部署到实际应用和产品中仍然非常具有挑战性。有一些托管解决方案可以用于生产工作负载，比如Hugging Face Inference API，或者使用EleutherAI的6b playground进行实验，但很少有关于如何轻松将其部署到自己的环境中的示例。在本博客文章中，您将学习如何使用Amazon SageMaker和Hugging Face推理工具包轻松部署GPT-J，只需几行代码即可进行可扩展、可靠和安全的实时推理，使用常规大小的GPU实例与NVIDIA T4（约500美元/月）。但在开始之前，我想解释一下为什么部署GPT-J到生产环境中具有挑战性。背景这个60亿参数模型的权重表示了大约24GB的内存占用。要以float32加载它，至少需要2倍于模型大小的CPU RAM：1倍用于初始权重，另外1倍用于加载检查点。因此，对于GPT-J，至少需要48GB的CPU RAM才能加载模型。为了使模型更易于访问，EleutherAI还提供了float16权重，并且transformers在加载大型语言模型时有新的选项来减少内存占用。将所有这些组合起来，加载模型大约需要12.1GB的CPU RAM。 from transformers import…

Leave a Comment

在Twitter上开始进行情感分析

Published July 15, 2023 by 四海吧

情感分析是根据文字数据的极性（如正面、负面和中性）自动分类的过程。公司利用推文的情感分析来了解客户对其产品和服务的讨论情况，获得洞察力以推动业务决策，并及早发现产品问题和潜在的公关危机。在本指南中，我们将介绍一切您需要学习的内容，以在Twitter上开始进行情感分析。我们将分享一种逐步进行情感分析的过程，适用于编码人员和非编码人员。如果您是编码人员，您将学习如何使用推断API，这是一个即插即用的机器学习API，可在几行代码中对推文进行情感分析。如果您不会编码，不用担心！我们还将介绍如何使用Zapier进行情感分析，这是一个无代码工具，可以帮助您收集推文，使用推断API对其进行分析，最后将结果发送到Google Sheets⚡️ 跟随教程或者直接跳到您感兴趣的部分：什么是情感分析？如何使用代码进行Twitter情感分析？如何在不编写代码的情况下进行Twitter情感分析？准备好了吗？开始享受这段旅程吧！🤗 什么是情感分析？情感分析使用机器学习自动识别人们对特定主题的讨论方式。情感分析最常见的用途是检测文本数据的极性，即自动确定推文、产品评论或支持票据是否对某个事物持积极、消极或中立的态度。举个例子，让我们看一些提到 @Salesforce 的推文，并看看它们如何被情感分析模型标记： “我使用 @salesforce 的时间越长，越讨厌它。它很慢，充满了错误。界面上的一些元素看起来好像自从2006年以来都没有更新过。目前的困扰是应用程序交换页面每隔10秒就会刷新” –> 这条推文将被标记为”负面”。 “这就是我喜欢 @salesforce 的原因。它关注关系，关心人们，不仅仅是业务和金钱。感谢您关心 #TrailblazerCommunity” –> 相比之下，这条推文将被分类为”积极”。 “回家了：#Dreamforce…

Leave a Comment

机器学习洞察总监【第四部分】

Published July 15, 2023 by 四海吧

如果您有兴趣更快地构建ML解决方案，请访问：hf.co/support 今天！ 👋 欢迎回到我们的ML洞察系列的总监！如果您错过了之前的版本，您可以在这里找到它们：机器学习洞察总监[第1部分] 机器学习洞察总监[第2部分：SaaS版] 机器学习洞察总监[第3部分：金融版] 🚀 在这第四部分中，您将听到以下顶级机器学习总监对机器学习对各自行业的影响的看法：Javier Mansilla，Shaun Gittens，Samuel Franklin和Evan Castle。所有这些人目前都是拥有丰富领域洞察的机器学习总监。免责声明：所有观点均来自个人，与任何过去或现在的雇主无关。 Javier Mansilla – Mercado Libre的机器学习市场科学总监背景：经验丰富的企业家和领导者，Javier是Machinalis的联合创始人和首席技术官，自2010年以来一直致力于构建机器学习（是的，在神经网络突破之前）。当Machinalis被Mercado Libre收购时，这个小团队发展成为一个拥有超过10,000名开发人员、影响近1亿直接用户的技术巨头，使机器学习成为其能力。每天，Javier不仅领导他们的机器学习平台（NASDAQ MELI）的技术和产品路线图，还领导他们的用户追踪系统、AB测试框架和开放源代码办公室。Javier是Python-Argentina非营利性组织PyAr的积极成员和贡献者，他喜欢与家人和朋友一起度过时间，喜欢Python、骑自行车、足球、木工和慢节奏的自然假期！趣闻：我喜欢阅读科幻小说，我的退休计划包括重新开始写短篇小说的少年梦想。📚 Mercado Libre：拉美最大的公司，也是该大陆的电子商务和金融科技无处不在的解决方案…

Leave a Comment

如何构建一个端到端的机器学习流水线

Published July 12, 2023 by 四海吧

社区中机器学习工程师经常抱怨的一个最普遍问题是手动完成机器学习工作流程（包括模型构建和部署）的成本高且容易出错他们需要手动运行脚本来预处理训练数据，重新运行部署脚本，手动调整模型，并花费大量工作时间…

Leave a Comment

在零售和电子商务行业构建机器学习平台

Published July 12, 2023 by 四海吧

让机器学习来解决组织中一些最难的问题是很好的而电子商务公司有很多机器学习可以帮助的用例问题是，随着越来越多的机器学习模型和系统投入生产，您需要建立更多的基础设施来可靠地管理一切正因为如此，许多…

Leave a Comment

构建可部署的机器学习流水线

Published June 30, 2023 by 四海吧

许多数据科学家最初接触编码是通过笔记本式用户界面笔记本对于探索是必不可少的，这是我们工作流程中的一个关键方面然而…

Leave a Comment

观察此空间：新的空间金融领域利用人工智能估算风险，监控资产，分析索赔

Published June 28, 2023 by 四海吧

在进行金融决策时，从无人机、卫星或AI动力传感器获取的大局观至关重要。空间金融这一新兴领域利用远程传感器和航空影像的AI洞察力，帮助银行、保险公司、投资公司和企业分析风险和机遇，开展新的服务和产品，衡量其投资的环境影响，并在危机之后评估损失。空间金融应用包括监测资产、建模能源效率、跟踪排放和污染、检测非法采矿和森林砍伐以及分析自然灾害风险。NVIDIA的AI软件和硬件可以帮助行业将其业务数据与地理空间数据结合起来加速这些应用。通过更好地了解与投资相关的环境和社会风险，金融行业可以选择优先支持可持续发展的投资，这被称为环境、社会和治理（ESG）框架。可持续投资的重点正在增加：彭博智库的分析估计，到2025年，ESG资产将占全球管理资产总额的三分之一以上。欧洲联盟空间计划机构的一份报告预测，保险和金融行业将成为未来十年地球观测数据和服务的最大消费者，到2031年总收入将超过10亿美元。 NVIDIA Inception的几个成员是全球支持尖端初创企业的计划，他们正在推进这些工作，利用GPU加速的AI应用程序，可以追踪工业厂区附近的水污染情况，评估野火的金融风险，评估风暴后的损失等。大规模数据的强大计算能力 GPU加速的AI和数据科学可以从复杂的非结构化数据中快速提取洞察力，使银行和企业能够实时流式处理和分析从卫星、无人机、天线和边缘传感器中捕获的数据。通过监测航空影像，分析人员可以清晰地看到水库中随时间使用的水量、为建筑项目砍伐的树木数量或龙卷风损坏的房屋数量。这种能力可以通过验证书面记录（如政府强制性披露、环境影响报告甚至保险索赔）的准确性，帮助审计投资。例如，投资者可以跟踪一家报告其生产线达到零排放的公司的供应链，发现实际上它依赖于一个在卫星图像中可见发出煤烟的海外工厂。或者，分析建筑物的热量排放的传感器可以帮助识别低排放企业以获得税收抵免。 NVIDIA的边缘计算解决方案，包括用于自治机器和其他嵌入式应用的NVIDIA Jetson平台，正在为空间金融中的众多AI计划提供动力。除了使用NVIDIA硬件加速他们的应用程序外，开发人员还采用包括用于流式分析的NVIDIA DeepStream软件开发工具包、视觉AI平台NVIDIA Metropolis的一部分。他们还使用NVIDIA Omniverse平台构建和操作元宇宙应用程序，以详细、三维可视化地展示地理空间数据。保险业——从风险评估到加速理赔 NVIDIA Inception成员正在开发GPU加速的应用程序，将地理空间数据转化为保险公司的洞察力，减少了对保险财产进行昂贵现场访问的需求。位于卢森堡的RSS-Hydro使用GPU计算在本地和云端训练FloodSENS，这是一个从卫星影像中绘制洪水影响的机器学习应用程序。该公司还使用NVIDIA Omniverse在3D中创建FloodSENS的动画，帮助团队在紧急情况下更有效地沟通洪水风险和资源分配规划。总部位于多伦多的Ecopia AI使用基于深度学习的地理空间数据挖掘系统，帮助生成高度准确的建筑、道路、森林等细分的下一代数字地图。这些地图在公共和私营部门中有各种应用，包括政府气候适应性倡议和保险风险评估。Ecopia使用NVIDIA GPU开发其AI模型。…

Leave a Comment