Press "Enter" to skip to content

介绍了🤗 Datasets中的新音频和视觉文档

开放和可重现的数据集对于推动良好的机器学习至关重要。与此同时,数据集的规模因为大型语言模型而急剧增长。在2020年,Hugging Face推出了🤗 Datasets库,该库致力于:

  1. 通过一行代码提供对标准化数据集的访问。
  2. 提供处理大规模数据集的快速高效工具。

感谢社区的贡献,在Datasets Sprint期间,我们添加了成百上千个多语言和方言的NLP数据集!🤗 ❤️

但是文本数据集只是一个开始。数据以更丰富的格式表示,例如🎵音频,📸图像,甚至是音频和文本或图像和文本的组合。在这些数据集上训练的模型可以实现令人惊叹的应用,例如描述图像内容或回答有关图像的问题。

🤗 Datasets团队一直在构建工具和功能,以使处理这些数据集类型尽可能简单,以提供最佳的开发者体验。我们在过程中添加了新的文档,帮助您了解如何加载和处理音频和图像数据集。

快速入门

快速入门是新用户首次访问了解库特性的地方之一。这就是为什么我们更新了快速入门,包括如何使用🤗 Datasets处理音频和图像数据集的内容。选择您想要处理的数据集模式,看一个端到端的示例,了解如何加载和处理数据集,使其准备好用PyTorch或TensorFlow进行训练。

快速入门中的新功能还包括to_tf_dataset函数,它负责将数据集转换为tf.data.Dataset,就像妈妈熊照顾她的幼崽一样。这意味着您无需编写任何代码就可以对数据集进行洗牌和批量加载,使其与TensorFlow良好配合。一旦将数据集转换为tf.data.Dataset,您就可以使用常规的TensorFlow或Keras方法来训练模型。

立即查看快速入门,了解如何处理不同的数据集模式,并尝试新的to_tf_dataset函数!

选择您的数据集冒险!

专门指南

每个数据集模式在加载和处理上都有特定的细微差别。例如,加载音频数据集时,音频信号会自动解码和实时重新采样,这与加载文本数据集非常不同!

为了使所有特定模式的文档更易于发现,我们新增了专门的章节,重点介绍如何加载和处理每个模式的数据集。如果您正在寻找有关处理特定数据集模式的具体信息,请首先查看这些专门章节。与此同时,非特定和可广泛使用的函数在“通用使用”部分有文档记录。通过以这种方式重新组织文档,我们将更好地适应未来计划支持的其他数据集类型。

这些指南按照最重要的🤗 Datasets方面进行组织。

查看专门指南,了解有关加载和处理不同模式数据集的更多信息。

ImageFolder

通常,🤗 Datasets用户编写数据集加载脚本以下载并生成具有适当的traintest分割的数据集。使用ImageFolder数据集构建器,您无需编写任何代码即可下载和生成图像数据集。加载用于图像分类的图像数据集就像确保您的数据集以以下文件夹方式组织一样简单:

folder/train/dog/golden_retriever.png
folder/train/dog/german_shepherd.png
folder/train/dog/chihuahua.png

folder/train/cat/maine_coon.png
folder/train/cat/bengal.png
folder/train/cat/birman.png
一旦您将您的🐶数据集上传到Hub并预览它,它应该看起来像这样。

图像标签是根据目录名称在

但是,等等,情况会变得更好!如果您有一个包含图像数据集某些元数据的文件,ImageFolder可以用于其他图像任务,如图像字幕和目标检测。例如,目标检测数据集通常具有边界框,即在图像中标识对象位置的坐标。 ImageFolder可以使用此文件将有关每个图像的边界框和类别的元数据链接到文件夹中相应的图像:

{"file_name": "0001.png", "objects": {"bbox": [[302.0, 109.0, 73.0, 52.0]], "categories": [0]}}
{"file_name": "0002.png", "objects": {"bbox": [[810.0, 100.0, 57.0, 28.0]], "categories": [1]}}
{"file_name": "0003.png", "objects": {"bbox": [[160.0, 31.0, 248.0, 616.0], [741.0, 68.0, 202.0, 401.0]], "categories": [2, 2]}} 

您可以使用ImageFolder加载几乎任何类型的图像任务的图像数据集,如果您有包含所需信息的元数据文件。查看ImageFolder指南以了解更多信息。

接下来是什么?

就像🤗数据集库的第一次迭代标准化了文本数据集并使其变得非常容易下载和处理一样,我们非常兴奋地将此相同的用户友好性带到音频和图像数据集中。通过这样做,我们希望用户能够更容易地训练、构建和评估跨所有不同模态的模型和应用程序。

在未来几个月中,我们将继续添加新功能和工具,以支持处理音频和图像数据集。据🤗 Hugging Face街头传言,即将推出名为AudioFolder的东西!🤫在等待期间,可以随时查看音频处理指南,然后动手使用像GigaSpeech这样的音频数据集。


加入论坛,就音频和图像数据集的任何问题和反馈提问。如果发现任何错误,请打开GitHub问题,我们会处理。

感觉有点冒险吗?为Hub上不断增长的社区驱动的音频和图像数据集贡献力量!在Hub上创建一个数据集存储库并上传您的数据集。如果需要帮助,请在存储库的社区标签页上开启讨论,并@一位🤗数据集团队成员帮助您完成!

Leave a Reply

Your email address will not be published. Required fields are marked *