Press "Enter" to skip to content

Hugging Face Hub 适用于图库、图书馆、档案馆和博物馆

Hugging Face Hub 用于博物馆、图书馆、档案馆和博物馆的中央仓库

Hugging Face Hub 是什么?

Hugging Face 的目标是使高质量的机器学习可供所有人使用。为了实现这一目标,我们采取了多种方式,包括开发广泛使用的 Transformers 代码库、提供免费课程,并提供 Hugging Face Hub。

Hugging Face Hub 是一个中央仓库,人们可以在其中共享和访问机器学习模型、数据集和演示。该仓库托管了超过190,000个机器学习模型、33,000个数据集以及超过100,000个机器学习应用和演示。这些模型涵盖了从预训练语言模型、文本、图像和音频分类模型、目标检测模型到各种生成模型的广泛任务。

托管在 Hub 上的模型、数据集和演示涵盖了广泛的领域和语言,社区定期努力扩大 Hub 提供的范围。本博客旨在为博物馆、图书馆、档案馆和博物馆(GLAM)部门的人员提供了解如何使用和贡献 Hugging Face Hub 的方法。

您可以阅读整篇文章,也可以跳转到最相关的章节!

  • 如果您不知道 Hub 是什么,请从:Hugging Face Hub 是什么? 开始
  • 如果您想知道如何在 Hub 上找到机器学习模型,请从:如何使用 Hugging Face Hub:在 Hub 上找到相关模型 开始
  • 如果您想知道如何在 Hub 上共享 GLAM 数据集,请从:演示:将 GLAM 数据集添加到 Hub? 开始
  • 如果您想看一些示例,请查看:Hugging Face Hub 的示例用途

您可以在 Hugging Face Hub 上找到什么?

模型

Hugging Face Hub 提供了涵盖各种任务和领域的机器学习模型。许多机器学习库与 Hugging Face Hub 集成,使您可以直接使用或通过这些库共享模型到 Hub 上。

数据集

Hugging Face Hub 托管了超过30,000个数据集。这些数据集涵盖了文本、图像、音频和多模态数据等各种领域和形式。这些数据集对于训练和评估机器学习模型非常有价值。

Spaces

Hugging Face Spaces 是一个平台,允许您托管机器学习演示和应用程序。这些 Spaces 包括从简单的演示,让您探索机器学习模型的预测,到更复杂的应用程序。

Spaces 使得托管和使您的应用程序对其他人可访问变得更加简单。您可以使用 Spaces 托管 Gradio 和 Streamlit 应用程序,或者您可以使用 Spaces 自定义 Docker 镜像。使用 Gradio 和 Spaces 的组合通常意味着您可以在几分钟内创建和托管一个应用程序,并允许其他人使用。如果您想完全控制您的应用程序,可以使用 Spaces 托管 Docker 镜像。还有 Docker 模板可让您快速访问许多热门工具的托管版本,包括 Argailla 和 Label Studio 注释工具。

如何使用 Hugging Face Hub:在 Hub 上找到相关模型

在 GLAM 部门中,机器学习模型可以在许多潜在用例中发挥作用。虽然一些机构可能具备从头开始训练机器学习模型所需的资源,但您可以使用 Hub 找到已经能够实现您需求或非常接近目标的开放共享模型。

例如,如果您正在处理一批具有最少元数据的挪威文数字化文件。了解集合中的内容的一种方法是使用命名实体识别(NER)模型。该模型从文本中提取实体,例如识别文本中提到的位置。了解文本中包含哪些实体可以更好地理解文档的内容。

我们可以通过过滤任务来找到 Hub 上的 NER 模型。在这种情况下,我们选择 token-classification,这是包括命名实体识别模型的任务。该过滤器返回标记为执行 token-classification 的模型。由于我们处理的是挪威文档,我们可能还想通过语言进行过滤,以便得到要探索的模型较小的集合。其中许多模型还包含一个模型小部件,我们可以用来测试模型。

Hugging Face Hub 适用于图库、图书馆、档案馆和博物馆 四海 第1张

模型小部件可以快速展示模型在我们的数据上的表现。一旦你找到感兴趣的模型,Hub 提供了不同的使用该工具的方式。如果你已经熟悉 Transformers 库,你可以点击“在 Transformers 中使用”按钮,弹出一个窗口显示如何在 Transformers 中加载模型。

Hugging Face Hub 适用于图库、图书馆、档案馆和博物馆 四海 第2张

Hugging Face Hub 适用于图库、图书馆、档案馆和博物馆 四海 第3张

如果你更喜欢通过 API 使用模型,点击模型仓库中的“部署”按钮,你将获得多种选项来将模型托管在 API 后面。如果你想在更大量的数据上尝试模型,但需要本地运行模型的基础设施,这将特别有用。

类似的方法也可以用来查找 Hugging Face Hub 上的相关模型和数据集。

演练:如何将 GLAM 数据集添加到 Hub 中?

我们可以通过多种方式在 Hugging Face Hub 上提供数据集。我将通过一个示例来介绍如何将 CSV 数据集添加到 Hugging Face Hub 中。

通过浏览器界面上传数据集到 Hub 的过程概述

在我们的示例中,我们将使《在书籍训练集》可在 Hub 上使用。该数据集包含一个 CSV 文件,其中包含用于训练文本分类模型的数据。由于 CSV 格式是可用于上传数据到 Hugging Face Hub 的支持格式之一,我们可以直接在 Hub 上共享此数据集,而无需编写任何代码。

创建一个新的数据集仓库

上传数据集到 Hub 的第一步是创建一个新的数据集仓库。你可以通过点击 Hugging Face Hub 右上角的下拉菜单中的“新建数据集”按钮来完成此操作。

Hugging Face Hub 适用于图库、图书馆、档案馆和博物馆 四海 第4张

创建数据集仓库后,你可以为其选择一个名称。你还可以将数据集创建在不同的所有者下,例如某个组织,并可选择指定许可证。

Hugging Face Hub 适用于图库、图书馆、档案馆和博物馆 四海 第5张

上传文件

创建数据集仓库后,你需要上传数据文件。你可以在数据集仓库的“文件”选项卡下点击“添加文件”来完成此操作。

Hugging Face Hub 适用于图库、图书馆、档案馆和博物馆 四海 第6张

现在你可以选择要上传到 Hub 的数据。

Hugging Face Hub 适用于图库、图书馆、档案馆和博物馆 四海 第7张

你可以使用上传界面上传单个文件或多个文件。上传文件后,你需要提交更改以完成上传。

Hugging Face Hub 适用于图库、图书馆、档案馆和博物馆 四海 第8张

添加元数据

为了使数据集更易于发现和帮助他人,向数据集仓库添加元数据非常重要。这将允许他人找到你的数据集并了解其内容。

你可以使用“元数据 UI”编辑器来编辑元数据。这允许你为数据集指定许可证、语言、标签等。

Hugging Face Hub 适用于图库、图书馆、档案馆和博物馆 四海 第9张

此外,详细说明你的数据集是什么,如何构建和为何构建它,以及它的优势和劣势也非常有帮助。你可以在数据集仓库中填写“README.md”文件来完成这个任务。该文件将作为你的数据集的数据集卡片。数据集卡片是面向机器学习数据集的半结构化文档形式,旨在确保数据集有足够的文档记录。当你编辑“README.md”文件时,你将有导入模板数据集卡片的选项。该模板将为你提供有用的提示,指导你在数据集卡片中包含哪些信息。

提示:编写一个好的数据集卡片可能需要很多工作。然而,您不一定需要一次完成所有这些工作,因为人们可以在Hub上为托管的数据集提问或提出建议,因此数据集文档化的过程可以成为一项集体活动。

数据集预览

一旦我们将数据集上传到Hub上,我们将获得数据集的预览。数据集预览是更好地理解数据集的有益方式。

Hugging Face Hub 适用于图库、图书馆、档案馆和博物馆 四海 第10张

分享数据集的其他方式

您可以使用许多其他方法在Hub上分享数据集。数据集文档将帮助您更好地理解哪种方法最适合您的特定用例。

为什么美术馆、图书馆、档案馆和博物馆希望使用Hugging Face Hub?

机构希望贡献给Hugging Face Hub有许多不同的原因:

  • 接触新受众:Hub已经成为机器学习、人工智能和相关领域从业人员的中心目的地。在Hub上分享将帮助将您的收藏品和工作暴露给这个受众。这也为与这个受众进一步合作开辟了机会。

  • 社区:Hub具有许多面向社区的功能,允许用户和潜在用户通过Hub提问和参与您共享的材料。共享训练模型和机器学习数据集还使人们能够建立在彼此工作基础上,并降低在该领域使用机器学习的门槛。

  • 多样化的训练数据:GLAM使用机器学习的障碍之一是获取用于训练和评估机器学习模型的相关数据的可用性。在基准数据集上效果良好的机器学习模型在GLAM组织的数据上可能效果不佳。建立一个共享领域特定数据集的社区将确保在GLAM领域更有效地推进机器学习。

  • 气候变化:训练机器学习模型会产生碳足迹。该足迹的大小取决于各种因素。我们可以通过与社区共享训练模型来共同减少这个足迹,以便人们不会重复使用相同的模型(并在此过程中产生更多的碳排放)。

Hugging Face Hub的示例用途

个人和组织已经使用Hugging Face Hub来共享与GLAM领域相关的机器学习模型、数据集和演示。

BigLAM

BigLAM是BigScience项目的一个发展计划,旨在使与机器学习相关的GLAM数据集更易于获取。到目前为止,BigLAM已经通过Hugging Face Hub提供了30多个与GLAM相关的数据集。

Nasjonalbiblioteket AI Lab

挪威国家图书馆的AI实验室是Hugging Face Hub的活跃用户,共分享了大约120个模型、23个数据集和六个公开共享的机器学习演示。这些模型包括在挪威国家图书馆和Sámi语言的文本上训练的语言模型和Whisper(语音转文本)模型。

史密森尼学会

史密森尼学会分享了一个在Hugging Face Spaces上托管的应用程序,展示了两个用于识别亚马逊鱼类物种的机器学习模型。该项目旨在为社区提供工具,以更准确地测量亚马逊鱼类数量。通过Spaces演示这样的工具进一步降低了使用这些工具的门槛。

来源

美术馆、图书馆、档案馆和博物馆的Hub功能

Hub支持许多功能,帮助使机器学习更易于使用。对于GLAM机构来说,一些特别有用的功能包括:

  • 组织:您可以在Hub上创建一个组织。这允许您创建共享您的组织的文物的地方。
  • 分配DOI:DOI(数字对象标识符)是对象的持久数字标识符。在创建学术成果的持久标识符时,DOI已成为创建出版物、数据集和软件的必需品。当引用学术成果时,期刊、会议或研究资助者通常需要持久标识符。Hugging Face Hub支持为在Hub上共享的模型、数据集和演示分配DOI。
  • 使用跟踪:您可以查看在Hub上托管的数据集和模型的每月下载统计信息,或查看总下载次数。这些统计数据可以成为机构展示影响力的有价值方式。
  • 基于脚本的数据集共享:如果您已经在某个地方托管了数据集,您仍然可以使用数据集加载脚本通过Hugging Face Hub提供对它们的访问。
  • 模型和数据集的门禁:在某些情况下,您希望更好地控制访问模型和数据集的人员。Hugging Face Hub支持模型和数据集门禁,允许您添加访问控制。

如何使用 Hub 获取帮助?

Hub 文档详细介绍了 Hugging Face Hub 的各种功能。您还可以在 Hub 上找到有关共享数据集和共享 Transformers 模型的更多信息。

如果您在使用 Hugging Face Hub 时需要帮助,有几种途径可以选择。您可以通过讨论论坛或Discord来寻求帮助。

Leave a Reply

Your email address will not be published. Required fields are marked *