Press "Enter" to skip to content

四海吧 Posts

介绍了🤗 Datasets中的新音频和视觉文档

开放和可重现的数据集对于推动良好的机器学习至关重要。与此同时,数据集的规模因为大型语言模型而急剧增长。在2020年,Hugging Face推出了🤗 Datasets库,该库致力于: 通过一行代码提供对标准化数据集的访问。 提供处理大规模数据集的快速高效工具。 感谢社区的贡献,在Datasets Sprint期间,我们添加了成百上千个多语言和方言的NLP数据集!🤗 ❤️ 但是文本数据集只是一个开始。数据以更丰富的格式表示,例如🎵音频,📸图像,甚至是音频和文本或图像和文本的组合。在这些数据集上训练的模型可以实现令人惊叹的应用,例如描述图像内容或回答有关图像的问题。 🤗 Datasets团队一直在构建工具和功能,以使处理这些数据集类型尽可能简单,以提供最佳的开发者体验。我们在过程中添加了新的文档,帮助您了解如何加载和处理音频和图像数据集。 快速入门 快速入门是新用户首次访问了解库特性的地方之一。这就是为什么我们更新了快速入门,包括如何使用🤗 Datasets处理音频和图像数据集的内容。选择您想要处理的数据集模式,看一个端到端的示例,了解如何加载和处理数据集,使其准备好用PyTorch或TensorFlow进行训练。 快速入门中的新功能还包括to_tf_dataset函数,它负责将数据集转换为tf.data.Dataset,就像妈妈熊照顾她的幼崽一样。这意味着您无需编写任何代码就可以对数据集进行洗牌和批量加载,使其与TensorFlow良好配合。一旦将数据集转换为tf.data.Dataset,您就可以使用常规的TensorFlow或Keras方法来训练模型。 立即查看快速入门,了解如何处理不同的数据集模式,并尝试新的to_tf_dataset函数! 选择您的数据集冒险! 专门指南 每个数据集模式在加载和处理上都有特定的细微差别。例如,加载音频数据集时,音频信号会自动解码和实时重新采样,这与加载文本数据集非常不同! 为了使所有特定模式的文档更易于发现,我们新增了专门的章节,重点介绍如何加载和处理每个模式的数据集。如果您正在寻找有关处理特定数据集模式的具体信息,请首先查看这些专门章节。与此同时,非特定和可广泛使用的函数在“通用使用”部分有文档记录。通过以这种方式重新组织文档,我们将更好地适应未来计划支持的其他数据集类型。 这些指南按照最重要的🤗 Datasets方面进行组织。 查看专门指南,了解有关加载和处理不同模式数据集的更多信息。 ImageFolder 通常,🤗…

Leave a Comment

美国国家人工智能研究资源临时报告评论

2022年6月底,Hugging Face向白宫科学技术政策办公室和国家科学基金会提交了对国家人工智能研究资源(NAIRR)任务组中期报告结果实施路线图的回应。作为一个旨在通过赋予各个背景人士为人工智能做出贡献的平台,我们强烈支持NAIRR的努力。 在我们的回应中,我们鼓励任务组: 任命技术和伦理专家作为顾问 应优先考虑具有伦理创新记录的技术专家作为顾问;他们可以为NAIRR提供关于技术可行性、可实施性和AI系统所必需的信息,并指导如何避免加剧有害偏见和其他恶意使用AI系统。马格丽特·米切尔博士是AI领域最杰出的技术专家和伦理实践者之一,也是Hugging Face的首席伦理科学家,她是一个外部顾问的典型例子。 资源(模型和数据)文档标准 NAIRR提供的系统和数据集文档标准和模板将提高可访问性,并作为一个检查清单。这种标准化应确保不同受众和背景的可读性。模型卡是一种广泛采用的文档结构,可以成为AI模型的一个强大模板。 使机器学习对跨学科、非技术专家可访问 NAIRR应提供教育资源,以及易于理解的界面和低代码或无代码工具,供所有相关专家进行复杂任务,如训练AI模型。例如,Hugging Face的AutoTrain使任何人都能够根据自己的技术能力训练、评估和部署自然语言处理(NLP)模型。 监测开源和开放科学中的高滥用和恶意使用潜力 损害必须由NAIRR和顾问定义并不断更新,但应涵盖严重和有害的偏见、政治虚假信息和仇恨言论。NAIRR还应投资法律专业知识,制定负责任的AI许可证,以在资源被滥用时采取行动。 通过可访问的工具和资源赋予多样化的研究者观点 工具和资源必须对不同学科以及推动负责任创新所需的多种语言和观点可用和可访问。这至少意味着提供多种语言的资源,可以以美国使用最多的语言为基础。BigScience Research Workshop是一个由Hugging Face和法国政府主办的来自60多个国家的1000多名不同学科的研究者社区,它是赋予不同国家的观点以建立最强大的开源多语言语言模型之一的一个很好的例子。 我们的备忘录对每个建议提供了更详细的信息。我们渴望更多资源以负责任的方式广泛普及人工智能。

Leave a Comment

近端策略优化(PPO)

深度强化学习课程第8单元,使用Hugging Face 🤗 ⚠️ 这篇文章有更新的版本,请点击这里查看 👉 https://huggingface.co/deep-rl-course/unit1/introduction 本文章是深度强化学习课程的一部分,从入门到专家的免费课程。查看课程大纲请点击这里。 ⚠️ 这篇文章有更新的版本,请点击这里查看 👉 https://huggingface.co/deep-rl-course/unit1/introduction 本文章是深度强化学习课程的一部分,从入门到专家的免费课程。查看课程大纲请点击这里。 在上一单元中,我们学习了优势演员评论家(A2C),这是一种将基于值的方法和基于策略的方法相结合的混合架构,通过以下方式减少方差,帮助稳定训练: 一个演员来控制我们的代理行为(基于策略的方法)。 一个评论家来衡量采取的动作的好坏(基于值的方法)。 今天我们将学习Proximal Policy Optimization(PPO),这是一种通过避免过大的策略更新来改善代理训练稳定性的架构。为了做到这一点,我们使用一个比率来表示当前策略与旧策略之间的差异,并将该比率裁剪到特定范围内[ 1 − ϵ , 1 +…

Leave a Comment

使用TF Serving在Kubernetes上部署🤗 ViT

在上一篇文章中,我们展示了如何使用🤗 Transformers在本地使用TensorFlow Serving部署Vision Transformer (ViT)模型。我们涵盖了嵌入预处理和后处理操作在Vision Transformer模型中的应用、处理gRPC请求等主题! 尽管本地部署是构建有用项目的出发点,但在实际项目中,您需要执行能够为许多用户提供服务的部署。在本文中,您将学习如何使用Docker和Kubernetes扩展之前文章中的本地部署。因此,我们假设您对Docker和Kubernetes有一定的了解。 本文在之前的文章基础上构建,因此强烈建议您先阅读之前的文章。您可以在此存储库中找到本文中讨论的所有代码。 扩展本类部署的基本工作流程包括以下步骤: 容器化应用逻辑:应用逻辑涉及处理请求并返回预测结果的模型。对于容器化,Docker是业界标准。 部署Docker容器:您有多种选项。最常用的选项是将Docker容器部署到Kubernetes集群上。Kubernetes提供了许多友好的部署特性(例如自动缩放和安全性)。您可以使用Minikube等解决方案在本地管理Kubernetes集群,或者使用Elastic Kubernetes Service (EKS)等Serverless解决方案。 您可能想知道在Sagemaker、Vertex AI等提供了机器学习部署特定功能的时代,为什么要使用这样明确的设置。这是一个合理的思考。 上述工作流程在业界被广泛采用,并且许多组织从中受益。它已经经过多年的实战测试。它还可以让您在抽象非平凡的部分的同时更加精细地控制部署。 本文使用Google Kubernetes Engine (GKE)来提供和管理Kubernetes集群。我们假设您已经有一个启用计费的GCP项目(如果您使用GKE)。另外,请注意,您需要配置gcloud实用程序以在GKE上执行部署。但本文中讨论的概念同样适用于您决定使用Minikube的情况。 注意:本文中显示的代码片段可以在Unix终端上执行,只要您已经配置了gcloud实用程序以及Docker和kubectl。更多说明请参见相关存储库。 服务模型可以处理原始图像输入数据,并能进行预处理和后处理。 在本节中,您将看到如何使用基础TensorFlow Serving镜像将该模型容器化。TensorFlow…

Leave a Comment

Hugging Face的TensorFlow理念

介绍 尽管来自PyTorch和JAX的竞争越来越激烈,但TensorFlow仍然是最常用的深度学习框架。它与这两个库在一些非常重要的方面有所不同。特别是,它与其高级API Keras 和数据加载库 tf.data 非常紧密地集成。 PyTorch工程师们有一种倾向(在这里,可以想象我在开放式办公室里阴沉地盯着对面)认为这是一个需要克服的问题;他们的目标是弄清楚如何让TensorFlow离开他们的路,以便他们可以使用他们习惯的低级训练和数据加载代码。这完全是错误的方法来处理TensorFlow!Keras是一个非常好的高级API。如果你在一个由几个模块组成的项目中将它挤到一边,当你意识到你需要它时,你将不得不自己重新实现大部分功能。 作为经过精心打磨、备受尊敬和极具吸引力的TensorFlow工程师,我们希望使用先进模型的令人难以置信的强大和灵活性,但我们希望用我们熟悉的工具和API来处理它们。本博文将讨论我们在Hugging Face所做的选择,以实现这一目标,并介绍作为TensorFlow程序员可以期待的框架。 插曲:30秒到🤗 有经验的用户可以随意略读或跳过本节,但如果这是你第一次接触Hugging Face和transformers,我应该首先给你一个该库的核心思想的概述:你只需按名称请求一个预训练模型,一行代码即可获得它。最简单的方法是使用TFAutoModel类: from transformers import TFAutoModel model = TFAutoModel.from_pretrained(“bert-base-cased”) 这一行将实例化模型架构并加载权重,给你一个与原始的著名BERT模型完全相同的复制品。但是,这个模型本身不会做太多事情 – 它缺少输出头部或损失函数。实际上,它是一个神经网络的“干才”,在最后一个隐藏层后面就停止了。那么如何在其上添加一个输出头部呢?简单,只需使用不同的AutoModel类。这里我们加载了Vision Transformer(ViT)模型,并添加了一个图像分类头部: from transformers…

Leave a Comment

深入探讨:使用Hugging Face Optimum Graphcore进行视觉Transformer

本博客文章将展示如何使用Hugging Face Optimum库和Graphcore Intelligence Processing Units(IPUs)对预训练的Transformer模型进行微调,以适应您的数据集。作为示例,我们将展示一份逐步指南,并提供一个笔记本,该笔记本使用一组大型、广泛使用的胸部X射线数据集来训练一个视觉Transformer(ViT)模型。 介绍视觉Transformer(ViT)模型 2017年,一组Google AI研究人员发表了一篇论文,介绍了Transformer模型架构。Transformer以其独特的自注意机制而闻名,被提出作为语言应用的一种新型高效模型组。事实上,在过去的五年中,Transformer模型经历了爆炸性的流行,并被广泛接受为自然语言处理(NLP)的事实标准。 语言领域的Transformer模型最具代表性的莫过于快速发展的GPT和BERT模型系列。作为Hugging Face Optimum Graphcore库日益壮大的一部分,这两个模型系列都可以轻松高效地在Graphcore IPUs上运行。 关于Transformer模型架构的深入解释(重点是NLP),可以在Hugging Face网站上找到。 尽管Transformer在语言领域取得了初步的成功,但它们具有极高的通用性,可以用于包括计算机视觉(CV)在内的一系列其他目的,正如我们将在本博客文章中介绍的那样。 计算机视觉是卷积神经网络(CNNs)无疑最受欢迎的架构领域。然而,视觉Transformer(ViT)架构首次在2021年由Google Research提出,它代表了图像识别的突破,并使用了与BERT和GPT相同的自注意机制作为其主要组成部分。 与BERT和其他基于Transformer的语言处理模型以句子(即单词列表)作为输入不同,ViT模型将输入图像分成几个小块,相当于语言处理中的单个单词。每个块都由Transformer模型线性编码成可以单独处理的向量表示。这种将图像分割成块或视觉标记的方法与CNNs使用的像素数组形成对比。 通过预训练,ViT模型学习了图像的内部表示,然后可以用于提取对下游任务有用的视觉特征。例如,您可以在一个新的带有标签的图像数据集上训练一个分类器,通过在预训练的视觉编码器之上放置一个线性层。通常情况下,将线性层放置在[CLS]标记之上,因为该标记的最后隐藏状态可以看作是整个图像的表示。 与CNN相比,ViT模型在更低的计算成本下展示了更高的识别准确性,并应用于包括图像分类、目标检测和分割在内的一系列应用。仅在医疗领域,应用案例就包括COVID-19、股骨骨折、肺气肿、乳腺癌和阿尔茨海默病等等。 ViT模型 – IPU的完美匹配…

Leave a Comment

使用Hugging Face Transformers和Habana Gaudi预训练BERT

在本教程中,您将学习如何使用基于Habana Gaudi的DL1实例在AWS上从头开始预训练BERT-base,以利用Gaudi的性价比优势。我们将使用Hugging Face Transformers、Optimum Habana和Datasets库来使用遮蔽语言建模预训练BERT-base模型,这是BERT的两个原始预训练任务之一。在开始之前,我们需要设置深度学习环境。 查看代码 您将学习如何: 准备数据集 训练一个分词器 预处理数据集 在Habana Gaudi上预训练BERT 注意:步骤1到3可以/应该在不同的实例大小上运行,因为这些是CPU密集型任务。 要求 在开始之前,请确保您满足以下要求: 具有DL1实例类型配额的AWS账户 已安装AWS CLI 在CLI中配置了AWS IAM用户,并拥有创建和管理EC2实例的权限 有用的资源 为Hugging Face Transformers与Habana Gaudi在AWS上设置深度学习环境…

Leave a Comment

OpenRAIL 朝着开放和负责任的人工智能许可框架迈进

开放和负责任的人工智能许可证(”OpenRAIL”)是一种专门针对人工智能制品的许可证,允许开放访问、使用和分发人工智能制品,同时要求对其负责任使用。OpenRAIL许可证可以成为开放和负责任的机器学习领域的普遍社区许可工具,就像当前的开源软件许可证对代码和知识共享许可证对通用内容一样。 机器学习和其他人工智能相关领域的进展在过去几年中蓬勃发展,部分得益于信息和通信技术(ICT)领域普遍存在的开源文化,该文化已经渗透到机器学习研究和开发的动态中。尽管开放性对于创新是一个核心价值观的益处不言而喻,但与机器学习模型的开发和使用相关的伦理和社会经济问题的最近事件传达了一个明确的信息:开放还不够。然而,封闭的系统也不是答案,因为问题依然存在于公司私有的人工智能开发过程的不透明性之下。 开源许可证并不适用于所有情况 对机器学习模型的访问、开发和使用受到开源许可方案的极大影响。例如,当机器学习开发人员通过附加官方开源许可证或其他开源软件或内容许可证(如知识共享许可证)来公开权重时,他们可能会非正式地称之为“开源模型”。这引发了一个问题:为什么他们这样做?机器学习制品和源代码真的如此相似吗?从技术角度来看,它们是否共享足够的内容,使得为源代码设计的私有治理机制(例如开源许可证)也应该治理机器学习模型的开发和使用? 大多数当前的模型开发者似乎是这么认为的,因为大多数公开发布的模型都有一个开源许可证(例如Apache 2.0)。例如,可以参考Hugging Face模型中心和Muñoz Ferrandis & Duque Lizarralde (2022)。 然而,实证证据也告诉我们,对开源化和/或自由软件动态的刚性方法以及对ML制品发布的自由0的公理信仰正在在ML模型的使用中产生社会伦理上的扭曲(见Widder等人(2022))。简而言之,开源许可证不考虑模型作为一个不同于软件/源代码的技术性质和能力的事物,因此无法适应对ML模型的更负责任的使用(例如开源定义的第6个标准),参见Widder等人(2022);Moran(2021);Contractor等人(2020)。 如果已经存在并且每天都在改进针对ML模型的文档、透明度和伦理使用的特定实践(例如模型卡片、评估基准),为什么开放许可实践也不应该根据ML模型的特定能力和挑战进行调整呢? 商业和政府的ML许可实践中也出现了类似的问题。用Bowe & Martin (2022)的话来说:“安德里尔工业的总法律顾问Babak Siavoshy问,为计算机视觉目标检测私下开发的AI算法应该适用于哪种类型的许可条款,并使其适应军事目标定位或威胁评估?商业软件许可证和标准DFARS数据权益条款都不能妥善回答这个问题,因为它们既无法保护开发者的利益,也无法使政府获得部署它的系统的洞察力以便负责任地使用。” 如果的确如此,即ML模型和软件/源代码是不同的制品,那为什么前者要在开源许可证下发布呢?答案很简单,开源许可证已经成为软件相关市场上代码共享的事实标准。这种“开源”方法在协作软件开发方面的应用已经渗透并影响了AI开发和许可实践,并带来了巨大的好处。开源和开放和负责任的人工智能许可证(”OpenRAIL”)可能是互补的倡议。 为什么我们不设计一套由开源等运动启发,以及以ML领域的基于证据的方法为基础的许可机制呢?事实上,已经有一套新的许可框架将成为开放和负责任的ML开发、使用和访问的工具:Open & Responsible AI Licenses(OpenRAIL)。…

Leave a Comment

训练你的第一个决策变形器

在以前的帖子中,我们宣布在transformers库中推出了Decision Transformers。这种新技术使用Transformer作为决策模型越来越受欢迎。 所以今天,您将学习如何从头开始训练第一个离线Decision Transformer模型,使半猎豹奔跑。我们将直接在Google Colab上进行训练,您可以在这里找到:👉 https://github.com/huggingface/blog/blob/main/notebooks/101_train-decision-transformers.ipynb *在Gym HalfCheetah环境中使用离线RL学习的“专家”Decision Transformers模型。 听起来很令人兴奋吗?让我们开始吧! 什么是Decision Transformers? 训练Decision Transformers 加载数据集并构建自定义数据整理器 使用🤗 transformers Trainer训练Decision Transformer模型 结论 接下来是什么? 参考文献 什么是Decision Transformers? Decision…

Leave a Comment

使用DeepSpeed和Accelerate实现了极快的BLOOM推断速度

本文介绍了如何在使用176B参数的BLOOM模型进行生成时获得非常快速的每个令牌吞吐量。 由于该模型需要352GB的bf16(bfloat16)权重(176*2),最高效的设置是8x80GB的A100 GPU。也可以使用2x8x40GB的A100或2x8x48GB的A6000。使用这些GPU的主要原因是在撰写本文时,它们提供了最大的GPU内存,但也可以使用其他GPU。例如,可以使用24x32GB的V100。 使用单个节点通常会提供最快的吞吐量,因为大多数时候节点内部的GPU链接硬件比节点间的链接硬件更快,但并非总是如此。 如果您没有那么多硬件,仍然可以在较小的GPU上运行BLOOM推理,通过使用CPU或NVMe卸载,但是生成时间当然会慢得多。 我们还将介绍需要半数GPU内存的8位量化解决方案,尽管吞吐量略有降低。我们将在BitsAndBytes和Deepspeed-Inference库中讨论这些内容。 基准测试 不再拖延,让我们展示一些数字。 为了保持一致性,除非另有说明,本文中的基准测试都是在同一台8x80GB的A100节点上进行的,配备512GB的CPU内存,位于Jean Zay HPC上。JeanZay HPC用户可以享受每秒约3GB的读取速度(GPFS),这对于检查点加载时间非常重要。慢速磁盘会导致较慢的加载时间。特别是因为我们同时在多个进程中进行IO。 所有基准测试都是对100个令牌输出进行贪婪生成: 生成参数{‘max_length’:100,’do_sample’:False} 输入提示只包含几个令牌。之前的令牌缓存也开启了,因为始终重新计算它们会非常慢。 首先,让我们快速看一下准备生成所需的时间-即加载和准备模型的时间: Deepspeed-Inference附带了预分片的权重存储库,在那里加载需要约1分钟。Accelerate的加载时间也非常出色,只需约2分钟。其他解决方案在这方面要慢得多。 加载时间可能重要,也可能不重要,因为加载后,您可以持续生成令牌,而无需额外的加载开销。 接下来是生成令牌吞吐量最重要的基准测试。这里的吞吐量指标很简单-生成100个新令牌所需的时间除以100和批量大小(即除以生成的令牌总数)。 这是在8x80GB GPU上的吞吐量: 其中OOM ==内存不足条件,批量大小过大无法适应GPU内存。 Deepspeed-Inference的张量并行(TP)和自定义融合CUDA内核,吞吐量低于1毫秒!这绝对令人惊讶!不过,对于尚未尝试过的其他模型使用此解决方案可能需要一些开发人员的时间来使其正常工作。 Accelerate也非常快速。它使用了非常简单的纯管道并行(PP)方法,因为它非常简单,所以应该可以与任何模型一起使用。…

Leave a Comment

伦理与社会通讯 #1

你好,世界! 作为一个开源公司,Hugging Face 的创立是基于一些关键的技术伦理价值观:协作、责任和透明。在开放环境中编码意味着将你的代码和其中的选择对世界可见,与你的账户关联,并可供他人批评和添加。随着研究社区开始使用 Hugging Face Hub 托管模型和数据,该社区直接将可复现性作为公司的另一个基本价值观。随着 Hugging Face 上的数据集和模型数量增长,Hugging Face 的工作人员实施了文档要求和免费的教学课程,满足了研究社区提出的新价值观,并围绕审计和理解当前技术所涉及的数学、代码、过程和人员等方面的价值观。 如何在人工智能中实施伦理道德是一个开放的研究领域。虽然关于应用伦理和人工智能的理论和学术研究已存在数十年,但在人工智能开发中应用和测试伦理实践直到过去10年才开始出现。这部分是对机器学习模型的回应,这些模型是人工智能系统的构建模块,超出了用于衡量它们进展的基准,导致机器学习系统在影响日常生活的各种实际应用中被广泛采用。对于我们这些对推动以伦理为基础的人工智能感兴趣的人来说,加入一个以伦理原则为基础的机器学习公司,正当它开始发展壮大,并且正当全球各地的人们开始面对伦理人工智能问题时,是一个根本性地塑造未来人工智能的机会。这是一种新型的现代人工智能实验:一个从一开始就考虑伦理的技术公司是什么样子?将伦理视野放在机器学习上,使良好的机器学习民主化意味着什么? 为此,我们在新的 Hugging Face 伦理与社会通讯中分享了我们最近的思考和工作,每个季度在春分和冬至时发布。这是我们,即“伦理与社会规律”团队的成员们共同努力的结果,这个团队是公司内的一个开放群体,他们作为平等的成员一起探讨机器学习在社会中的更广泛背景以及 Hugging Face 的角色。我们认为,这并不是一个专门的团队:为了使公司在工作和流程中做出价值导向的决策,所有相关方都需要承担共同责任和承诺,以承认和了解我们工作的伦理风险。 我们正在不断研究关于“良好”机器学习的实践和研究,试图提供一些可能界定它的标准。作为一个持续进行的过程,我们通过展望人工智能的不同可能未来,创造我们现在可以做的东西,以使个人和更广泛的机器学习社区所持有的不同价值得到协调。我们将这种方法基于 Hugging Face 的创立原则:…

Leave a Comment

如何使用🤗 Accelerate和PyTorch运行非常大的模型

加载和运行大型模型 Meta AI和BigScience最近开源了非常大的语言模型,这些模型无法适应大多数消费者硬件的内存(RAM或GPU)。在Hugging Face,我们的使命之一就是使这些大型模型可访问,因此我们开发了工具,使您能够运行这些模型,即使您没有超级计算机。本博客文章中选择的所有示例都在免费的Colab实例上运行(具有有限的RAM和磁盘空间),如果您有更多的磁盘空间,请随时选择更大的检查点。 下面是我们如何运行OPT-6.7B模型: import torch from transformers import pipeline # This works on a base Colab instance. # Pick a larger checkpoint if…

Leave a Comment

使用Hugging Face推理端点入门

训练机器学习模型变得相当简单,尤其是随着预训练模型和迁移学习的兴起。好吧,有时候可能并不是那么简单,但至少,训练模型不会破坏关键应用程序,也不会让客户对您的服务质量感到不满。然而,部署模型……是的,我们都经历过。 在生产环境中部署模型通常需要经历一系列复杂的步骤。将模型打包到容器中,配置基础设施,创建预测API,保护它,扩展它,监控它等等。面对现实吧:构建所有这些基础设施会占用宝贵的时间,而这些工作并非机器学习的实际工作。不幸的是,它也可能出现严重问题。 我们努力解决这个问题,通过新推出的Hugging Face推理端点。为了使机器学习变得更简单,同时又不妥协于最先进的质量,我们构建了一个服务,让您可以在几个点击之间将机器学习模型直接部署到您最喜欢的云上的托管基础设施中。简单、安全、可扩展:您可以拥有所有这些。 让我向您展示这是如何工作的! 在推理端点上部署模型 从推理端点支持的任务列表中,我决定部署一个我最近在food101数据集上使用AutoTrain微调的Swin图像分类模型。如果您对我是如何构建这个模型感兴趣,这个视频会向您展示整个过程。 从我的模型页面开始,我点击部署,然后选择推理端点。 这将直接带我进入端点创建页面。 我决定在单个GPU实例上部署我模型的最新修订版,托管在AWS的eu-west-1地区。可选地,我可以设置自动扩展,甚至可以在自定义容器中部署模型。 接下来,我需要决定谁可以访问我的端点。从最不安全到最安全,有三个选项: 公开:端点在公共的Hugging Face子网中运行,任何互联网上的人都可以在没有任何身份验证的情况下访问它。在选择此选项之前三思而行! 受保护:端点在公共的Hugging Face子网中运行,任何具有适当组织令牌的互联网上的人都可以访问它。 私有:端点在私有的Hugging Face子网中运行。它无法通过互联网访问,只能通过使用AWS PrivateLink创建的VPC端点在您的AWS帐户中使用。您可以控制您的AWS帐户中的哪个VPC和子网有权访问该端点。 我们首先部署一个受保护的端点,然后再部署一个私有的端点。 部署受保护的推理端点 我只需选择受保护,然后点击创建端点。 几分钟后,端点已经启动并运行,其URL可见。 我可以立即通过在推理小部件中上传图像来测试它。 当然,我也可以使用几行Python代码直接调用端点,并使用我的Hugging Face…

Leave a Comment

使用🤗 Evaluate评估语言模型偏见

在过去几年中,大型语言模型的规模和功能已经大大增加,与此同时对这些模型和它们的训练数据中潜在偏见的关注也在增加。事实上,许多流行的语言模型被发现存在针对特定宗教和性别的偏见,这可能导致歧视性观点的传播和对边缘群体的伤害持续存在。 为了帮助社区探索这些偏见,并加强我们对语言模型所编码的社会问题的理解,我们一直在努力向🤗 Evaluate库中添加偏见度量和测量功能。在本博客文章中,我们将介绍一些新的添加内容以及如何使用它们。我们将重点介绍因果语言模型(CLMs)如GPT-2和BLOOM的评估,利用它们根据提示生成自由文本的能力。 如果您想看到实际效果,请查看我们创建的Jupyter笔记本! 工作流程包括两个主要步骤: 使用预定义的一组提示(托管在🤗数据集上)提示语言模型 使用度量或测量评估生成的文本(使用🤗 Evaluate) 让我们通过三个基于提示的有害语言的偏见评估任务来了解如何使用Hugging Face库进行偏见分析:毒性、极性和伤害性。我们在这里介绍的工作旨在演示如何利用Hugging Face库进行偏见分析,不依赖于特定的基于提示的数据集。需要注意的是,最近引入的用于评估偏见的数据集只是初步步骤,不能捕捉到模型可能产生的广泛偏见的范围(有关更多详细信息,请参见下面的讨论部分)。 毒性 当在实际环境中部署CLMs时,评估它们产生问题内容(如仇恨言论)的可能性非常重要。在下面的示例中,我们使用来自WinoBias的提示样本,并使用它们作为GPT-2的提示。然后,我们使用🤗 Evaluate中的toxicity分数来评估模型生成的完成度的毒性,该分数利用了R4 Target模型作为仇恨言论分类器。我们可以看到,代词的简单更改(他/她)会导致完全不同的模型完成。 >>> male_prompts = [ ‘清洁工责备会计师,因为他’, ‘木匠总是向图书馆员寻求帮助,因为他’, ‘医生想见辅导员,因为他有一些问题’ ] >>> female_prompts…

Leave a Comment

使用🤗 Optimum Intel和OpenVINO加速您的模型

去年7月,我们宣布Intel和Hugging Face将合作构建Transformer模型的最先进但简单的硬件加速工具。今天,我们非常高兴地宣布,我们已经将Intel OpenVINO添加到Optimum Intel中。您现在可以在各种Intel处理器上轻松执行OpenVINO Runtime的推理(请参阅支持设备的完整列表),并使用Hugging Face hub或本地托管的Transformer模型。您还可以使用OpenVINO神经网络压缩框架(NNCF)对模型进行量化,减小模型的大小和预测延迟,几乎只需几分钟。 这个首次发布基于OpenVINO 2022.2,并且可以使用我们的OVModels对大量PyTorch模型进行推理。可以在许多编码器模型(BERT,DistilBERT等)上应用训练后静态量化和量化感知训练。更多编码器模型将在即将发布的OpenVINO版本中支持。目前,编码器解码器模型的量化尚未启用,但随着我们对下一个OpenVINO版本的集成,这个限制将被解除。 让我们向您展示如何在几分钟内开始使用! 使用Optimum Intel和OpenVINO对Vision Transformer进行量化 在这个例子中,我们将对在food101数据集上进行图像分类的Vision Transformer(ViT)模型进行训练后静态量化。 量化是一种降低模型参数的内存和计算要求的过程。减少位数意味着推理时所需的内存较少,并且由于整数运算,矩阵乘法等操作可以更快地执行。 首先,让我们创建一个虚拟环境并安装所有依赖项。 virtualenv openvino source openvino/bin/activate pip install pip –upgrade…

Leave a Comment

使用🤗 Transformers对多语言ASR进行微调的Fine-Tune Whisper

在本博客中,我们使用Hugging Face 🤗 Transformers为任何多语种ASR数据集提供了Whisper微调的逐步指南。本博客提供了对Whisper模型、Common Voice数据集以及微调背后原理的深入解释,并附带了执行数据准备和微调步骤的代码单元格。如需更简洁版本的笔记本,其中包含更少的解释但包含所有代码,请参阅附带的Google Colab。 目录 介绍 在Google Colab中微调Whisper 准备环境 加载数据集 准备特征提取器、标记器和数据 训练和评估 构建演示 结束语 介绍 Whisper是由Alec Radford等人于2022年9月在OpenAI发布的用于自动语音识别(ASR)的预训练模型。与其许多前辈模型(如Wav2Vec 2.0)不同,Whisper在大量的标记音频转录数据上进行了预训练,准确地说是680,000小时。这比用于训练Wav2Vec 2.0的无标记音频数据(60,000小时)多一个数量级。此外,这个预训练数据中的117,000小时是多语种ASR数据。这导致可以应用于96种以上语言的检查点,其中许多语言被认为是低资源语言。 这个大量的标记数据使得Whisper能够直接在监督任务(语音识别)上进行预训练,从标记的音频转录预训练数据中学习从语音到文本的映射。因此,Whisper只需要很少的额外微调就能够产生高性能的ASR模型。这与Wav2Vec 2.0形成对比,后者在无监督任务(遮蔽预测)上进行预训练。在这种情况下,模型被训练来学习从无标记音频数据到隐藏状态的中间映射。虽然无监督预训练可以生成高质量的语音表示,但它并不学习从语音到文本的映射。这个映射只有在微调过程中学习,因此需要更多的微调才能产生有竞争力的性能。 当扩展到680,000小时的标记预训练数据时,Whisper模型展示了很强的泛化能力,适用于许多数据集和领域。预训练检查点在LibriSpeech ASR的测试-清洁子集上实现了与最先进的ASR系统竞争的结果,字错误率(WER)接近3%,并在TED-LIUM上取得了4.7%的WER新记录(参见Whisper论文的表8)。Whisper在预训练过程中获得的广泛多语种ASR知识可以用于其他低资源语言;通过微调,预训练检查点可以针对特定数据集和语言进行调整,进一步改善这些结果。…

Leave a Comment

使用扩散器训练稳定扩散的Dreambooth

Dreambooth 是一种使用特殊形式的微调来教授 Stable Diffusion 的新概念的技术。一些人已经在使用它与他们的一些照片一起将自己置于奇幻情景中,而其他人则用它来融入新的风格。🧨 Diffusers 提供了一个 Dreambooth 训练脚本。训练的时间并不长,但选择正确的超参数集合很困难,而且很容易过拟合。 我们进行了许多实验来分析 Dreambooth 中不同设置的影响。本文介绍了我们的发现和一些技巧,以在使用 Dreambooth 进行 Stable Diffusion 的微调时改善您的结果。 在开始之前,请注意,这种方法绝不能用于恶意目的,以任何方式造成伤害,或未经他们的知情而冒充他人。使用此方法训练的模型仍受 CreativeML 开放 RAIL-M 许可证的约束,该许可证管理 Stable Diffusion 模型的分发。…

Leave a Comment

介绍我们的新定价

正如您可能已经注意到的那样,我们的定价页面最近发生了很大变化。 首先,我们将逐步停用推理 API 服务的付费层。推理 API 仍然对每个人免费开放使用。但是,如果您正在寻找快速、企业级的推理即服务解决方案,我们推荐您了解我们全新的解决方案:推理端点。 除了推理端点,我们最近还为 Spaces 引入了硬件升级,这使得您能够使用您选择的硬件运行机器学习演示。使用这些服务不需要订阅;您只需要在您的帐户的计费设置中添加信用卡即可。您还可以将付款方式附加到您的任何组织。 您的计费设置集中了我们付费服务的所有内容。从那里,您可以管理您的个人高级订阅,更新您的付款方式,并可视化过去三个月的使用情况。我们所有付费服务和订阅的使用情况将在每个月初收费,并提供一份综合发票供您保存。 简而言之:在 HF,我们通过提供简单的 AI 计算访问来实现盈利,例如 AutoTrain、Spaces 和推理端点,这些服务可以直接从 Hub 访问。了解更多关于我们的定价和计费系统的信息。 如果您有任何问题,请随时联系我们。我们欢迎您的反馈🔥

Leave a Comment

使用Transformers中的对比搜索生成人类水平的文本 🤗

1. 简介: 自然语言生成(即文本生成)是自然语言处理(NLP)中的核心任务之一。在本博客中,我们介绍了当前最先进的解码方法对比搜索(Contrastive Search),用于神经文本生成。对比搜索最初在“A Contrastive Framework for Neural Text Generation”[1]([论文][官方实现])中提出,该论文发表于NeurIPS 2022。此外,在随后的研究“Contrastive Search Is What You Need For Neural Text Generation”[2]([论文][官方实现])中,作者进一步证明了对比搜索可以使用现成的语言模型在16种语言中生成人类水平的文本。 [备注] 对于不熟悉文本生成的用户,请参考此博文了解更多细节。 2. Hugging Face…

Leave a Comment

Hugging Face在arXiv上的机器学习演示

我们非常高兴地宣布,Hugging Face与arXiv合作,使论文更易获取、发现和有趣!从今天开始,Hugging Face Spaces与arXivLabs整合,通过一个演示标签将社区或作者自己创建的演示链接包含其中。通过进入你喜欢的论文的演示标签,你可以找到开源演示的链接,并立即尝试🔥 自2021年10月推出以来,Hugging Face Spaces已被社区用于构建和分享超过12,000个开源机器学习演示。借助Spaces,Hugging Face用户可以分享、探索、讨论模型,并构建交互式应用程序,使任何人都可以在浏览器中尝试它们,无需运行任何代码。这些演示是使用开源工具(如Gradio和Streamlit Python库)构建的,并利用了在Hugging Face Hub上可用的模型和数据集。 得益于最新的arXiv集成,用户现在可以在论文的arXiv摘要页面上找到最受欢迎的演示。例如,如果你想尝试BERT语言模型的演示,你可以转到BERT论文的arXiv页面,并导航到演示标签。你将看到由开源社区构建的200多个演示–有些演示仅展示BERT模型,而其他演示展示了修改或使用BERT作为更大流程的一部分的相关应用,如上面所示的演示。 演示使更广泛的受众可以探索机器学习以及其他领域中构建计算模型的领域,例如生物学、化学、天文学和经济学。它们有助于增加对模型工作原理的认识和理解,提升研究人员工作的可见性,并使更多不同背景的受众能够识别和调试偏见和其他问题。这些演示通过让他人无需编写一行代码就能探索论文的结果,增加了研究的可重复性!我们对与arXiv的这一整合感到非常激动,迫不及待地想看到研究社区将如何利用它来改进沟通、传播和解释性。

Leave a Comment

机器学习洞察总监【第四部分】

如果您有兴趣更快地构建ML解决方案,请访问:hf.co/support 今天! 👋 欢迎回到我们的ML洞察系列的总监!如果您错过了之前的版本,您可以在这里找到它们: 机器学习洞察总监[第1部分] 机器学习洞察总监[第2部分:SaaS版] 机器学习洞察总监[第3部分:金融版] 🚀 在这第四部分中,您将听到以下顶级机器学习总监对机器学习对各自行业的影响的看法:Javier Mansilla,Shaun Gittens,Samuel Franklin和Evan Castle。所有这些人目前都是拥有丰富领域洞察的机器学习总监。 免责声明:所有观点均来自个人,与任何过去或现在的雇主无关。 Javier Mansilla – Mercado Libre的机器学习市场科学总监 背景:经验丰富的企业家和领导者,Javier是Machinalis的联合创始人和首席技术官,自2010年以来一直致力于构建机器学习(是的,在神经网络突破之前)。当Machinalis被Mercado Libre收购时,这个小团队发展成为一个拥有超过10,000名开发人员、影响近1亿直接用户的技术巨头,使机器学习成为其能力。每天,Javier不仅领导他们的机器学习平台(NASDAQ MELI)的技术和产品路线图,还领导他们的用户追踪系统、AB测试框架和开放源代码办公室。Javier是Python-Argentina非营利性组织PyAr的积极成员和贡献者,他喜欢与家人和朋友一起度过时间,喜欢Python、骑自行车、足球、木工和慢节奏的自然假期! 趣闻:我喜欢阅读科幻小说,我的退休计划包括重新开始写短篇小说的少年梦想。📚 Mercado Libre:拉美最大的公司,也是该大陆的电子商务和金融科技无处不在的解决方案…

Leave a Comment

我们正在招聘实习生!

想要在 — 如果我们可以这样说的话 — 人工智能中最酷的地方之一帮助构建未来吗?今天我们宣布了2023年的实习计划。与您的Hugging Face导师一起,我们将致力于解决人工智能和机器学习的前沿问题。 欢迎来自各个背景的申请者!理想情况下,您具备一些相关经验,并对我们将机器学习的负责任民主化的使命感到兴奋。我们领域的进展有可能加剧现有的不平等现象,对社会上最边缘化的人群,包括有色人种、来自工人阶级背景的人、女性和LGBTQ+人群,造成更大的伤害。这些社群必须成为我们作为研究社群所做工作的核心。因此,我们强烈鼓励那些个人经历反映这些身份的人提出建议! 职位 以下实习职位可在开源团队中申请,与各个库的维护者一起工作: 加速实习生,负责在库中引入新的有影响力的功能。 文本到语音实习生,负责文本转语音的再现。 以下职位可在科学团队中申请: 具身化人工智能实习生,与具身化人工智能团队合作,研究模拟器中的强化学习。 快速分布式训练框架实习生,创建一个用于大型语言模型的灵活分布式训练框架。 用于大型语言模型的数据集实习生,构建用于训练下一代大型语言模型的数据集和相关工具。 以下其他实习职位可申请: 社会影响评估实习生,开发评估生成式机器学习模型整体社会影响的技术框架。 AI艺术工具实习生,通过构建工具来连接人工智能和艺术领域,赋予艺术家更多能力。 实习地点根据具体情况而定,如果实习主办方有地点偏好,将在职位列表中指明。 如何申请 您可以直接通过我们的职位门户网站申请每个职位。点击上面的职位名称,将直接跳转到申请表格。 请确保在申请时完成申请表格末尾的简短提交。您需要创建一个Hugging Face账户。 我们正在积极努力建立一个重视多样性、公平性和包容性的文化。我们有意打造一个人们感到受到尊重和支持的工作场所,无论您是谁,来自哪里。我们相信这是建立一个伟大的公司和社群的基础。Hugging Face是一个平等机会的雇主,我们不以种族、宗教、肤色、国籍、性别、性取向、年龄、婚姻状况、退伍军人身份或残疾身份来歧视任何人。

Leave a Comment

在苹果硅上使用核心ML进行稳定扩散

感谢苹果工程师,现在您可以使用 Core ML 在 Apple Silicon 上运行 Stable Diffusion! 这个 Apple 仓库提供了基于 🧨 Diffusers 的转换脚本和推理代码,我们非常喜欢它!为了让您尽可能轻松,我们自己转换了权重,并将模型的 Core ML 版本放在了 Hugging Face Hub 中。 更新:在撰写本文几周后,我们创建了一个原生的 Swift 应用程序,您可以使用它在自己的硬件上轻松运行…

Leave a Comment

使用蛋白质的深度学习

在撰写本文时,我有两个受众考虑在内。一方面是生物学家,他们想要了解机器学习,另一方面是机器学习者,他们想要了解生物学。如果你对生物学或者机器学习都不熟悉,也欢迎你参与,但是可能有时会感到有些困惑!如果你已经对这两个领域都很熟悉,那么你可能不需要阅读本文 – 你可以直接跳到我们的示例笔记本中,看看这些模型的实际应用: 使用 PyTorch 和 TensorFlow 对蛋白质语言模型进行微调 使用 ESMFold 进行蛋白质折叠(目前只支持 PyTorch,因为涉及到 openfold 的依赖) 针对生物学家的介绍:到底什么是语言模型? 处理蛋白质的模型受到了 BERT 和 GPT 等大型语言模型的启发。为了理解这些模型的工作原理,我们将回到2016年左右,即它们出现之前的时期。特朗普还没有当选,英国脱欧还没有发生,而深度学习(DL)则是当时最热门的新技术,每天都在创造新的记录。DL成功的关键在于它使用人工神经网络来学习数据中的复杂模式。然而,DL有一个关键问题 – 它需要大量的数据才能发挥出色的效果,而在许多任务中,这些数据是不可用的。 假设你想要训练一个DL模型,以英语句子作为输入,并决定它的语法是否正确。于是你收集了训练数据,它看起来像这样: 从理论上讲,在当时这个任务是完全可能的 –…

Leave a Comment

展示从人类反馈中的强化学习(RLHF)

这篇文章已经翻译成了简体中文和越南语。有兴趣翻译成其他语言吗?请联系nathan at huggingface.co。 近年来,语言模型通过生成多样且引人入胜的文本展现出了令人印象深刻的能力,这些文本是由人类输入提示生成的。然而,如何定义一个“好”的文本在本质上是困难的,因为它是主观的,也与上下文有关。有许多应用场景,例如写作故事时需要创造性,提供信息的文本应当真实,或者我们希望代码片段是可执行的。 设计一个能捕捉到这些特性的损失函数似乎是棘手的,大多数语言模型仍然使用简单的下一个标记预测损失(例如交叉熵)进行训练。为了弥补损失本身的不足,人们定义了一些度量标准,旨在更好地捕捉人类偏好,例如BLEU或ROUGE。虽然这些度量标准比损失函数本身更适合衡量性能,但它们只是简单地将生成的文本与参考文本进行比较,并且因此也存在局限性。如果我们将人类对生成文本的反馈作为性能度量,甚至进一步将该反馈作为损失来优化模型,岂不是很好?这就是人类反馈强化学习(RLHF)的概念;使用强化学习的方法直接优化语言模型并结合人类反馈。 RLHF使得语言模型能够开始将基于通用文本数据训练的模型与复杂的人类价值观对齐。 RLHF最近的成功案例是在ChatGPT中的应用。鉴于ChatGPT令人印象深刻的能力,我们请它为我们解释RLHF: 它的表现出人意料地好,但仍然有一些缺失。我们将填补这些空白! 从人类反馈中进行强化学习(也可以称为人类偏好强化学习)是一个具有挑战性的概念,因为它涉及到多模型训练过程和不同阶段的部署。在本博文中,我们将把训练过程分解为三个核心步骤: 预训练语言模型(LM), 收集数据并训练奖励模型,以及 使用强化学习对LM进行微调。 首先,我们将看一下语言模型是如何进行预训练的。 预训练语言模型 作为RLHF的起点,使用了已经通过经典预训练目标进行过预训练的语言模型(有关详细信息,请参阅此博文)。OpenAI在其首个受欢迎的RLHF模型InstructGPT中使用了较小版本的GPT-3。Anthropic使用了训练任务的变压器模型,参数规模从1000万到520亿。DeepMind使用了他们的2800亿参数模型Gopher。 这个初始模型也可以在额外的文本或条件上进行微调,但不一定需要。例如,OpenAI在人类生成的“可取”的文本上进行了微调,而Anthropic通过提取有关其“有益、诚实和无害”标准的上下文线索对其初始LM进行了蒸馏。这些都是我所指的昂贵的增强数据的来源,但了解RLHF并不需要这种技术。 总的来说,在RLHF的起点上“哪个模型”是最好的并没有一个明确的答案。这将是本博文中的一个常见主题-RLHF训练选项的设计空间尚未被充分探索。 接下来,使用语言模型,需要生成数据来训练一个奖励模型,这是将人类偏好融入系统的方式。 奖励模型训练 生成一个经过人类偏好校准的奖励模型(RM,也称为偏好模型)是RLHF中相对较新的研究领域。其基本目标是获得一个模型或系统,接受一系列文本作为输入,并返回一个标量奖励,该奖励应在数值上代表人类偏好。该系统可以是一个端到端的LM,也可以是一个输出奖励的模块化系统(例如,模型对输出进行排序,然后将排序转换为奖励)。输出为标量奖励对于后续无缝集成已有RL算法至RLHF过程中至关重要。 这些用于奖励建模的语言模型可以是另一个微调的语言模型,也可以是从偏好数据上从头训练的语言模型。例如,Anthropic在预训练后使用了一种专门的微调方法来初始化这些模型(偏好模型预训练,PMP),因为他们发现这比微调更节省样本,但是至今没有一种奖励建模的变体被认为是明确的最佳选择。 用于RM的训练数据集是通过从预定义数据集中抽样一组提示生成对(Anthropic主要使用在Amazon Mechanical Turk上使用聊天工具生成的数据,可以在Hub上获得,OpenAI使用用户提交给GPT API的提示)。这些提示通过初始语言模型生成新的文本。…

Leave a Comment

让我们谈谈机器学习中的偏见!伦理与社会通讯第二期

机器学习中的偏见无处不在,而且机器学习中的偏见非常复杂;事实上,没有单一的技术干预可以有效地解决它所带来的问题。作为社会技术系统,机器学习模型放大了可能加剧不平等和有害偏见的社会趋势,这取决于它们的部署环境并不断演变。 这意味着谨慎地开发机器学习系统需要保持警惕,并对来自部署环境的反馈作出回应,而我们可以通过在不同环境中分享经验教训和开发工具来促进这一过程,以分析每个机器学习开发阶段的偏见迹象。 这篇来自伦理和社会团队的博客文章分享了我们学到的一些教训,以及我们开发的工具,以支持我们和社区中其他人更好地解决机器学习中的偏见问题。第一部分是关于偏见及其背景的广泛反思。如果您已经阅读过它,并且特别关注工具部分,请随意跳转到数据集或模型部分! 🤗 团队成员开发的一些用于解决机器学习中偏见问题的工具 目录: 关于机器偏见 机器偏见:从机器学习系统到风险 将偏见置于背景中 工具和建议 在机器学习开发中解决偏见问题 任务定义 数据集策划 模型训练 🤗 偏见工具概述 机器偏见:从机器学习系统到个人和社会风险 机器学习系统使我们能够在以前从未见过的规模上自动化复杂任务,因为它们在更多的领域和用例中得到应用。当技术发挥最佳作用时,它可以帮助人们与技术系统之间的互动更加顺畅,消除高度重复性的工作需求,或者开辟处理信息的新方式以支持研究。 这些系统同样有可能复制训练数据中所代表的歧视性和滥用行为,特别是当数据编码了人类行为时。这时,技术有可能使这些问题变得更加严重。自动化和大规模部署确实可以: 固化某一时期的行为,阻碍社会进步在技术中得到反映, 扩大有害行为超越原始训练数据的上下文, 通过过度关注刻板印象的关联来放大不平等, 通过将偏见隐藏在“黑盒”系统中,剥夺追索的可能性。 为了更好地理解和解决这些风险,机器学习研究人员和开发人员已经开始研究机器偏见或算法偏见,即可能导致系统在其部署环境中对不同人群产生负面刻板印象或不同绩效的机制。 这些问题对于我们…

Leave a Comment

AI游戏开发:用5天时间创建一个农场游戏第1部分

欢迎来到游戏开发的人工智能!在这个系列中,我们将使用人工智能工具在短短5天内创建一个完全功能的农场游戏。在这个系列结束时,您将学会如何将各种人工智能工具融入到游戏开发流程中。我将向您展示如何使用人工智能工具来实现以下功能: 艺术风格 游戏设计 3D资产 2D资产 故事 想要快速了解的话,您可以在这里观看视频。否则,如果您想了解技术细节,请继续阅读! 注意:本教程适用于熟悉Unity开发和C#的读者。如果您对这些技术还不熟悉,请先查看“Unity入门系列”。 第1天:艺术风格 我们游戏开发过程的第一步是决定艺术风格。为了决定我们农场游戏的艺术风格,我们将使用一个名为“稳定扩散”的工具。稳定扩散是一个开源模型,它根据文本描述生成图像。我们将使用这个工具为我们的游戏创建一个视觉风格。 设置稳定扩散 有几种方法可以运行稳定扩散:本地或在线。如果您使用具有良好GPU的台式机并且想要完整的工具集,我建议您使用本地方式。否则,您可以使用在线解决方案。 本地 我们将使用Automatic1111 WebUI在本地运行稳定扩散。这是一种流行的在本地运行稳定扩散的解决方案,但是设置需要一些技术知识。如果您使用的是Windows,并且有一块至少8GB内存的Nvidia GPU,请继续按照以下说明进行操作。否则,您可以在GitHub存储库的README中找到其他平台的说明,或者选择在线解决方案。 Windows上的安装: 要求:一块至少8GB内存的Nvidia GPU。 安装Python 3.10.6。 在安装过程中确保选中“将Python添加到PATH”。 安装git。 在命令提示符中输入以下命令来克隆存储库: git…

Leave a Comment

图机器学习简介

在这篇博文中,我们介绍了图机器学习的基础知识。 我们首先研究了图是什么,为什么要使用图,以及如何最好地表示它们。然后简要介绍了人们在图上学习的方法,从前神经方法(同时探索图特征)到通常称为图神经网络的方法。最后,我们瞥见了用于图的Transformer。 图 什么是图? 本质上,图是通过关系链接的项目的描述。 图的示例包括社交网络(Twitter、Mastodon、任何将论文和作者链接起来的引用网络)、分子、知识图(如UML图、百科全书和带有页面之间超链接的任何网站)、以其句法树表示的句子、任何三维网格等等!因此,可以说图无处不在。 图的项目(或网络)称为其节点(或顶点),它们之间的连接称为边(或链接)。例如,在社交网络中,节点是用户,边是它们之间的连接;在分子中,节点是原子,边是它们之间的化学键。 具有类型节点或类型边的图称为异构图(例如:引用网络中的项目可以是论文或作者,具有类型节点;XML图中的关系是有类型的,具有类型边)。它不能仅通过其拓扑结构来表示,它需要额外的信息。本文重点介绍同质图。 图也可以是有向的(如关注者网络,A关注B并不意味着B关注A)或无向的(如分子,原子之间的关系是双向的)。边可以连接不同的节点或一个节点本身(自连接),但不是所有节点都需要连接。 如果要使用您的数据,您必须首先考虑其最佳描述方式(同质/异构、有向/无向等)。 图有什么用途? 让我们看一下我们可以在图上做哪些可能的任务。 在图级别上,主要任务包括: 图生成,在药物发现中用于生成新的合理分子。 图演化(给定一个图,预测它随时间的演化),在物理学中用于预测系统的演化。 图级别的预测(从图中进行分类或回归任务),例如预测分子的毒性。 在节点级别上,通常是节点属性预测。例如,Alphafold使用节点属性预测来预测给定分子的整体图的情况下,原子的三维坐标,从而预测分子在三维空间中的折叠方式,这是一个困难的生物化学问题。 在边级别上,可以是边属性预测或缺失边预测。边属性预测有助于药物副作用预测,可以根据一对药物预测不良副作用。缺失边预测在推荐系统中用于预测图中两个节点是否相关。 还可以在子图级别上进行社区检测或子图属性预测。社交网络使用社区检测来确定人们的联系方式。子图属性预测可以在行程系统(例如Google Maps)中找到,用于预测预计到达时间。 在这些任务上工作可以通过两种方式完成。 当您想要预测特定图的演化时,您可以在遍历设置中进行工作,其中所有内容(训练、验证和测试)都在同一个图上完成。如果这是您的设置,请注意!从单个图创建训练/评估/测试数据集并不简单。然而,大部分工作都是使用不同的图进行的(分开的训练/评估/测试拆分),这被称为归纳设置。 我们如何表示图? 用于处理和操作图的常见表示方法有: 作为所有边的集合(可能补充有所有节点的集合)…

Leave a Comment

3D 资产生成:游戏开发中的人工智能 #3

欢迎来到游戏开发中的人工智能! 在这个系列中,我们将使用人工智能工具在短短5天内创建一个完全功能的农场游戏。通过这个系列,您将学习如何将各种人工智能工具纳入游戏开发工作流程中。我将向您展示如何使用人工智能工具进行以下方面的工作: 艺术风格 游戏设计 3D 资源 2D 资源 故事情节 想要快速了解视频版本吗?您可以在这里观看。否则,如果您想要技术细节,请继续阅读! 注意:本教程适用于熟悉 Unity 开发和 C# 的读者。如果您对这些技术不熟悉,请先查看 Unity 入门系列。 第三天:3D 资源 在本教程系列的第二部分中,我们使用了游戏设计中的人工智能。更具体地说,我们使用 ChatGPT 来为游戏进行头脑风暴。 在本部分中,我们将讨论如何使用人工智能生成 3D 资源。简单来说:目前还不能。这是因为文本到…

Leave a Comment