Press "Enter" to skip to content

如何实践数据中心化人工智能并使人工智能改善自身数据集

如何实践数据中心化人工智能并使人工智能改善自身数据集 四海 第1张

编者按: Jonas Mueller将于10月30日至11月2日参加ODSC West,敬请关注他的演讲,“How to Practice Data-Centric AI and Have AI Improve its Own Dataset。”

机器学习模型的好坏取决于它们所训练的数据。即使使用最先进的神经网络结构,如果训练数据有缺陷,模型的性能也会受到影响。标签错误、异常值、重复数据、数据漂移和低质量样本等数据问题会严重影响模型性能。

这就是为什么数据中心 AI 技术变得越来越受欢迎的原因。与其仅仅关注模型架构、超参数和训练技巧作为模型改进的唯一驱动因素,数据中心 AI 利用模型本身来系统地改进数据集(即使在建模代码没有任何变化的情况下,仍然可以生成更好的模型版本)。不要认为您必须手动完成所有数据策划工作!新的算法/软件可以通过自动化帮助您系统地策划您的数据。

如何实践数据中心化人工智能并使人工智能改善自身数据集 四海 第2张

在本文中,我将概述如何利用 AI/ML 自动检测现实世界数据集中的各种常见问题。这些技术基于我团队多年的研究,探索了使用训练模型的信息来算法地检测什么样的数据问题。为了将这些想法付诸实践,我将演示最受欢迎的数据中心 AI 软件之一 – 开源的 cleanlab 库。使用一行 Python 代码,cleanlab 可帮助您自动检测几乎任何数据集(图像、文本、表格、音频等)中的常见数据问题,无论使用的是已经训练好的机器学习模型(sklearn、huggingface、pytorch、LLMs 等)。

如何实践数据中心化人工智能并使人工智能改善自身数据集 四海 第3张

实践数据中心 AI 的步骤

  1. 在原始数据集上训练初始机器学习模型。
  2. 利用该模型诊断数据问题(通过本文介绍的技术)并改进数据集。
  3. 在改进后的数据集上重新训练相同的模型。
  4. 尝试不同的建模技术以进一步提高性能。

许多数据科学家会直接跳过步骤 1 → 4,但通过使用基于初始机器学习模型捕获的信息(这已经可以揭示出数据的许多特征),您可以在不更改建模代码的情况下实现巨大的性能提升。通过迭代步骤 2 → 4(并尝试使用清理过的数据进行评估),实现持续的性能提升。

改进数据集的另一种方法是收集更多的注释/示例。您会惊讶地发现,经过几周优化的高级模型往往会被通过增加一天的数据标记而简单地击败基线模型的人取胜(这在顶级科技公司内部都很常见)。如果正确利用模型对数据的捕获信息,您的机器学习模型可以帮助决定收集哪些数据/注释具有最多的信息。这些技术可以帮助您节约有限的资源。

使用 Cleanlab 入门

Cleanlab 是一个专为数据中心 AI 打造的 Python 库。只需几行代码,您就可以分析您的数据集以找到潜在问题。

如何实践数据中心化人工智能并使人工智能改善自身数据集 四海 第4张

仅仅检测数据问题并不能提高您的模型 – 您需要解决这些问题。对于一些问题,如(近似)重复数据,修复可能只需从数据集中删除多余副本即可。

对于更复杂的问题,例如标签错误,您可以简单地过滤掉所有自动检测到的错误数据。例如,在对文本分类任务(礼貌预测)进行各种LLM模型的微调时,这种自动过滤可以提高LLM的性能,而无需更改建模代码!通过纠正自动检测到的错误标签的示例,可以实现更大的收益;这些收益适用于不同的LLM(以及更一般的多样化数据形式和机器学习模型)。

如何实践数据中心化人工智能并使人工智能改善自身数据集 四海 第5张

关于数据中心化人工智能的我的ODSC West 2023教程

要了解更多有关底层数据中心化AI技术和真实案例研究,请来参加我在ODSC West 2023的教程。我将涵盖以下内容:

  • 数据中心化AI的基础知识
  • 用于自动检测数据问题(例如标签错误和异常值)的算法
  • 改进数据集的方法,包括如何高效地收集附加注释。

通过示例和代码演示,您将准确了解如何应用数据中心化AI,以通过您可能在大学课程中从未学到的技术充分发挥您的机器学习项目的潜力。

我希望您享受此次对cleanlab和数据中心化AI的介绍。一定要查看我在ODSC West的演讲,深入了解这些强大的技术!您可以在这里找到更多详细信息。

个人简介:

如何实践数据中心化人工智能并使人工智能改善自身数据集 四海 第6张Jonas Mueller 是Cleanlab的首席科学家和联合创始人,Cleanlab是一家提供数据中心化AI工具的软件公司,可将不可靠的数据转化为可靠的模型/分析。此前,他是亚马逊网络服务的高级科学家,开发了为全球数百家最大公司提供机器学习应用的算法,之前他在MIT获得了博士学位。他还帮助创建了最快增长的开源库AutoML数据中心化AI

Leave a Reply

Your email address will not be published. Required fields are marked *