Press "Enter" to skip to content

38 search results for "README"

如何使用Github？逐步指南

Published December 17, 2023 by 四海吧

在GitHub上注册的六个步骤步骤 1：注册GitHub账号访问他们的网站并点击注册按钮。填写相关信息，包括您的用户名、电子邮件和密码。完成后，验证您的电子邮件，您将拥有一个免费的GitHub账号，可用于代码存储库和协作。 https://docs.github.com/en/get-started/quickstart/hello-world 步骤 2：在GitHub上创建一个代码库在GitHub上创建一个代码库要为您的项目创建GitHub代码库，请按照以下简单的步骤进行： 1. 在任何GitHub页面的右上角点击“+”符号，然后选择“新建代码库”。 2. 在“代码库名称”框中为您的代码库命名。 3. 在“描述”框中添加简短的描述。 4. 选择您的代码库是公开还是私人。 5. 选中“添加README文件”的选项。 6. 点击“创建代码库”按钮。此代码库可以用于组织和存储文件、与他人进行协作，并在GitHub上展示您的项目。 https://docs.github.com/en/get-started/quickstart/hello-world…

Continue reading

Leave a Comment

介绍Amazon SageMaker HyperPod以大规模训练基础模型

Published December 1, 2023 by 四海吧

建立基础模型（FMs）需要建立、维护和优化大型集群，以在海量数据上训练具有数百亿个参数的模型创建一个能够处理故障和环境变化而不会丢失几天甚至几周模型训练进度的韧性环境是一项运营挑战，需要你…

Continue reading

Leave a Comment

使用亚马逊Bedrock自动化产品描述生成

Published November 26, 2023 by 四海吧

在如今不断发展变化的电子商务世界中，引人入胜的产品描述的影响力无法被低估它可以成为决定性因素，将潜在访客变成付费客户，或者让他们转而点击竞争对手的网站在众多产品上手动创建这些描述是一项费时费力的工作

Continue reading

Leave a Comment

应对地图挑战：#30DayMapChallenge中途的导航

Published November 17, 2023 by 四海吧

想象世界的广阔并不是一件容易的事情但为了更接近它，今年11月，我将参加#30DayMapChallenge我已经迷上了地理可视化…

Continue reading

Leave a Comment

分支是你所需要的一切：我们的具有个人观点的ML版本管理框架

Published October 17, 2023 by 四海吧

使用Git分支对机器学习项目进行简单版本管理，简化工作流程，整理数据和模型，并将项目中相关部分连接在一起的简单方法

Continue reading

Leave a Comment

使用推理API部署AI漫画工厂

Published October 7, 2023 by 四海吧

我们最近宣布了我们的新产品PROs的推论，使更大的模型对更广泛的用户群体可用。这个机会为使用Hugging Face作为平台运行最终用户应用程序开启了新的可能性。这样一个应用程序的示例是AI漫画工厂 – 一个极其受欢迎的空间。成千上万的用户尝试使用它创建自己的AI漫画画布，从而形成了自己的常用用户社区。他们分享自己的作品，甚至有些人还打开了拉取请求。在本教程中，我们将向您展示如何fork和配置AI漫画工厂以避免长时间等待，并使用推理API部署到您自己的私有空间。这不需要强大的技术技能，但建议了解API、环境变量以及LLMs和Stable Diffusion的基本理解。入门首先，确保您注册了PRO Hugging Face账户，因为这将使您能够访问Llama-2和SDXL模型。 AI漫画工厂的工作原理 AI漫画工厂与在Hugging Face上运行的其他空间有所不同：它是一个使用Docker部署的NextJS应用程序，基于客户端-服务器方法，需要两个API才能工作：语言模型API（目前为Llama-2）稳定扩散API（目前为SDXL 1.0）复制空间要复制AI漫画工厂，请转到该空间并单击“复制”：您会发现空间所有者、名称和可见性已经为您填好，所以您可以保留这些值。您的空间副本将在一个不需要太多资源的Docker容器中运行，因此您可以使用最小的实例。官方的AI漫画工厂空间使用较大的CPU实例，因为它满足了一个庞大的用户群体。要在您的帐户下操作AI漫画工厂，您需要配置您的Hugging Face令牌：选择LLM和SD引擎 AI漫画工厂支持各种后端引擎，可以使用两个环境变量进行配置：…

Continue reading

Leave a Comment

“用LLM掌握客户细分”

Published September 28, 2023 by 四海吧

使用LLMs解锁先进的客户分割技术通过先进技术改进您的聚类模型，成为专家

Continue reading

Leave a Comment

作为学生如何在数据科学领域找到工作

Published September 20, 2023 by 四海吧

在你还是学生的时候，学习如何增加你获得第一份数据科学工作的可能性

Continue reading

Leave a Comment

在Python中有效地处理日期和时间的编码

Published September 4, 2023 by 四海吧

最近我在广泛地处理时间序列数据，并且在Python中处理了日期和时间对象为此，我学到了一些处理日期时间对象的有用技巧…

Continue reading

Leave a Comment

如何有效地构建数据科学项目

Published August 31, 2023 by 四海吧

“我曾经参与过许多数据科学项目，帮助客户处理各种回归和分类任务：相似模型和推荐系统、自然语言处理问题、预测…”

Continue reading

Leave a Comment

使用Python和Linux进行后量子密码学

Published August 24, 2023 by 四海吧

如果我们相信爱德华·斯诺登（Edward Snowden）的话，加密是“唯一真正的防护手段，能够抵御监视”[1]然而，量子技术的进步可能会危及这种保护措施我们的文章讨论了为什么…

Continue reading

Leave a Comment

使用Haystack流水线和Amazon SageMaker JumpStart构建适用于企业搜索的生产就绪的生成式AI应用程序，使用LLMs

Published August 24, 2023 by 四海吧

在这篇文章中，我们展示了如何使用Haystack pipelines和来自Amazon SageMaker JumpStart和Amazon OpenSearch Service的Falcon-40b-instruct模型，构建一个端到端的生成式AI应用程序，用于企业搜索，并加以检索增强生成（RAG）

Continue reading

Leave a Comment

利用生成式人工智能增强AWS智能文档处理

Published August 5, 2023 by 四海吧

对于处理大量文档的组织来说，数据分类、提取和分析可能具有挑战性传统的文档处理解决方案是手动的、昂贵的、容易出错的，并且难以扩展AWS智能文档处理（IDP）通过使用Amazon Textract等人工智能服务，让您能够快速利用领先行业的机器学习（ML）技术来快速实现数据分类、提取和分析

Continue reading

Leave a Comment

忘记PIP、Conda和requirements.txt！使用Poetry吧，以后再感谢我

Published July 22, 2023 by 四海吧

“无痛依赖管理终于来了”

Continue reading

Leave a Comment

提升您的数据科学、机器学习和计算机视觉项目：有效项目管理的必备工具

Published July 21, 2023 by 四海吧

机器学习或数据科学项目非常庞大，因为它们包含许多类型的文件和许多不同的架构但令人惊讶的是，我发现了各种项目管理工具，可以帮助构建这些项目…

Continue reading

Leave a Comment

重新思考数据科学组合

Published July 20, 2023 by 四海吧

发现为什么选择简单易用的项目而不是复杂的炫耀作品能改善你的作品集和数据科学职业前景

Continue reading

Leave a Comment

在13分钟内使用Hamilton构建一个易维护和模块化的LLM应用程序堆栈

Published July 20, 2023 by 四海吧

在这篇文章中，我们将分享一个名为Hamilton的开源框架，它可以帮助您为大型语言模型（LLM）应用堆栈编写模块化且易于维护的代码Hamilton非常优秀…

Continue reading

Leave a Comment

如何使用Transformers和Tokenizers从头开始训练一个新的语言模型

Published July 18, 2023 by 四海吧

在过去的几个月里，我们对我们的transformers和tokenizers库进行了一些改进，目标是让从头开始训练一个新的语言模型变得比以往更容易。在这篇文章中，我们将演示如何在Esperanto上训练一个“小”模型（84 M参数=6层，768隐藏大小，12个注意力头）-与DistilBERT相同数量的层和头。然后，我们将对该模型进行下游的词性标注任务微调。 Esperanto是一种目标是易于学习的构造语言。我们选择它作为演示的原因有几个：它是一种相对较低资源的语言（尽管有大约200万人使用），所以这个演示比训练另一个英语模型不那么无聊😁 它的语法非常规则（例如，所有普通名词以-o结尾，所有形容词以-a结尾），因此即使在一个小数据集上，我们也应该获得有趣的语言结果。最后，该语言的根本目标是使人们更加接近（促进世界和平和国际理解），可以说这与NLP社区的目标是一致的💚 注意：您不需要了解Esperanto就能理解本文，但如果您想学习它，Duolingo有一个有280,000个活跃学习者的不错课程。我们的模型将被称为…等待…EsperBERTo😂 1. 找到一个数据集首先，让我们找到一个包含Esperanto文本的语料库。在这里，我们将使用INRIA的OSCAR语料库中的Esperanto部分。OSCAR是通过对Web的Common Crawl转储进行语言分类和过滤而获得的一个巨大的多语言语料库。数据集的Esperanto部分只有299M，所以我们将与Leipzig Corpora Collection的Esperanto子语料库连接在一起，该语料库由来自新闻、文学和维基百科等多种来源的文本组成。最终的训练语料库的大小为3 GB，这仍然很小-对于您的模型来说，您能够获得的数据越多，预训练效果就会更好。 2. 训练一个分词器我们选择训练一个字节级的Byte-pair编码分词器（与GPT-2相同），使用与RoBERTa相同的特殊标记。让我们随意将其大小设为52,000。我们建议训练一个字节级的BPE（而不是像BERT那样使用WordPiece分词器），因为它将从一个由单个字节组成的字母表开始构建其词汇表，所以所有的单词都可以分解为标记（不再有<unk>标记！）。 #! pip install…

Continue reading

Leave a Comment

分布式训练：使用🤗 Transformers和Amazon SageMaker训练BART/T5进行摘要

Published July 17, 2023 by 四海吧

如果你错过了：我们在3月25日宣布与Amazon SageMaker合作，旨在更轻松地创建最先进的机器学习模型，并更快地发布尖端的NLP功能。与SageMaker团队一起，我们构建了🤗优化的Transformers深度学习容器，以加速基于Transformers的模型训练。感谢AWS的朋友们！🤗 🚀 通过SageMaker Python SDK中的新HuggingFace估计器，您可以通过一行代码开始训练。发布的博客文章提供了有关集成的所有信息，包括“入门”示例和文档、示例和功能的链接。在此再次列出： 🤗 Transformers文档：Amazon SageMaker 示例笔记本 Hugging Face的Amazon SageMaker文档 Hugging Face的Python SDK SageMaker文档深度学习容器如果您对Amazon SageMaker不熟悉：“Amazon SageMaker是一项完全托管的服务，为每个开发人员和数据科学家提供快速构建、训练和部署机器学习（ML）模型的能力。SageMaker从机器学习过程的每个步骤中减轻了繁重的负担，使开发高质量模型更加容易。”[ REF…

Continue reading

Leave a Comment

使用n-gram在🤗 Transformers中提升Wav2Vec2性能

Published July 17, 2023 by 四海吧

Wav2Vec2是一种流行的预训练模型，用于语音识别。该模型由Meta AI Research于2020年9月发布，其创新的架构推动了自监督预训练在语音识别方面的进展，例如Ng等人，2021年，Chen等人，2021年，Hsu等人，2021年和Babu等人，2021年。在Hugging Face Hub上，Wav2Vec2最受欢迎的预训练检查点当前每月下载量超过250,000次。使用连续时间分类（CTC），预训练的类似Wav2Vec2的检查点非常容易在下游语音识别任务上进行微调。简而言之，微调预训练的Wav2Vec2检查点的工作原理如下：在预训练的检查点之上堆叠一个随机初始化的线性层，并训练它将原始音频输入分类为一系列字母。它通过以下方式实现：从原始音频中提取音频表示（使用CNN层），使用一堆transformer层处理音频表示的序列，和将处理后的音频表示分类为一系列输出字母。以前的音频分类模型需要额外的语言模型（LM）和字典，以将分类的音频帧序列转换为连贯的转录。Wav2Vec2的架构基于transformer层，因此每个处理后的音频表示都能从其他所有音频表示中获取上下文。此外，Wav2Vec2利用CTC算法进行微调，解决了“输入音频长度”与“输出文本长度”比例不同的对齐问题。由于具有上下文化的音频分类和没有对齐问题，Wav2Vec2不需要外部语言模型或字典就能产生可接受的音频转录。正如官方论文的附录C所示，Wav2Vec2在LibriSpeech上表现出色，而无需使用语言模型。然而，从附录中也可以清楚地看出，结合语言模型使用Wav2Vec2可以显著提高性能，特别是当模型仅在10分钟的转录音频上进行训练时。直到最近，🤗 Transformers库没有提供一个简单的用户界面来使用经过微调的Wav2Vec2和语言模型解码音频文件。这个情况幸运地发生了改变。🤗 Transformers现在提供了与Kensho Technologies的pyctcdecode库的简单集成。本博客文章是一篇逐步的技术指南，解释了如何使用🤗 Datasets和🤗 Transformers创建一个n-gram语言模型，并将其与现有的经过微调的Wav2Vec2检查点结合使用。我们首先进行以下步骤：使用语言模型解码音频与不使用语言模型解码音频有何不同？如何获取适合语言模型的数据？如何使用KenLM构建n-gram模型？如何将n-gram模型与经过微调的Wav2Vec2检查点结合使用？如果想深入了解Wav2Vec2的工作原理（不是本博客文章所必需的），建议阅读以下资料：…

Continue reading

Leave a Comment

深度 Q 学习与太空入侵者

Published July 16, 2023 by 四海吧

深度强化学习课程第三单元，与Hugging Face共同学习 🤗 ⚠️ 这篇文章的新版本已经发布，请点击链接查看 👉 https://huggingface.co/deep-rl-course/unit1/introduction 本文是深度强化学习课程的一部分，从入门到专家级的免费课程。请在此处查看课程大纲。 ⚠️ 这篇文章的新版本已经发布，请点击链接查看 👉 https://huggingface.co/deep-rl-course/unit1/introduction 本文是深度强化学习课程的一部分，从入门到专家级的免费课程。请在此处查看课程大纲。在上一单元中，我们学习了我们的第一个强化学习算法：Q-Learning，并且从头开始实现了它，并在两个环境中进行了训练，FrozenLake-v1 ☃️ 和 Taxi-v3 🚕。我们在这个简单的算法中取得了出色的结果。但是这些环境相对简单，因为状态空间是离散且较小的（FrozenLake-v1有14个不同的状态，Taxi-v3有500个状态）。但正如我们将看到的，对于状态空间较大的环境，产生和更新Q表可能会变得无效。因此，今天，我们将学习我们的第一个深度强化学习代理：Deep Q-Learning。Deep Q-Learning不使用Q表，而是使用神经网络，根据状态来近似计算每个动作的Q值。而且我们将使用RL-Zoo来训练它玩Space Invaders和其他Atari环境，RL-Zoo是一个使用Stable-Baselines进行RL训练的训练框架，提供了训练、评估代理、调整超参数、绘制结果和录制视频的脚本。…

Continue reading

Leave a Comment

使用PyTorch的策略梯度

Published July 15, 2023 by 四海吧

第五单元，使用 Hugging Face 的深度强化学习课程 🤗 ⚠️ 这篇文章有一个新的更新版本，可以在这里找到 👉 https://huggingface.co/deep-rl-course/unit1/introduction 这篇文章是深度强化学习课程的一部分，从入门到专家都可以免费学习。点击这里查看课程大纲。 ⚠️ 这篇文章有一个新的更新版本，可以在这里找到 👉 https://huggingface.co/deep-rl-course/unit1/introduction 这篇文章是深度强化学习课程的一部分，从入门到专家都可以免费学习。点击这里查看课程大纲。在上一个单元中，我们学习了深度 Q 学习。在这种基于值的深度强化学习算法中，我们使用深度神经网络来逼近每个可能动作的不同 Q 值。确实，在课程的开始阶段，我们只学习了基于值的方法，其中我们通过估计一个值函数作为找到最优策略的中间步骤。因为在基于值的方法中，π 只存在于动作值估计之中，因为策略只是一个函数（例如，贪婪策略），它会在给定状态时选择具有最高值的动作。但是，对于基于策略的方法，我们希望直接优化策略，而不需要学习值函数的中间步骤。所以今天，我们将学习我们的第一个基于策略的方法：Reinforce。我们将使用…

Continue reading

Leave a Comment

在苹果硅上使用核心ML进行稳定扩散

Published July 14, 2023 by 四海吧

感谢苹果工程师，现在您可以使用 Core ML 在 Apple Silicon 上运行 Stable Diffusion！这个 Apple 仓库提供了基于 🧨 Diffusers 的转换脚本和推理代码，我们非常喜欢它！为了让您尽可能轻松，我们自己转换了权重，并将模型的 Core ML 版本放在了 Hugging Face Hub 中。更新：在撰写本文几周后，我们创建了一个原生的 Swift 应用程序，您可以使用它在自己的硬件上轻松运行…

Continue reading

Leave a Comment

AI游戏开发：用5天时间创建一个农场游戏第1部分

Published July 14, 2023 by 四海吧

欢迎来到游戏开发的人工智能！在这个系列中，我们将使用人工智能工具在短短5天内创建一个完全功能的农场游戏。在这个系列结束时，您将学会如何将各种人工智能工具融入到游戏开发流程中。我将向您展示如何使用人工智能工具来实现以下功能：艺术风格游戏设计 3D资产 2D资产故事想要快速了解的话，您可以在这里观看视频。否则，如果您想了解技术细节，请继续阅读！注意：本教程适用于熟悉Unity开发和C#的读者。如果您对这些技术还不熟悉，请先查看“Unity入门系列”。第1天：艺术风格我们游戏开发过程的第一步是决定艺术风格。为了决定我们农场游戏的艺术风格，我们将使用一个名为“稳定扩散”的工具。稳定扩散是一个开源模型，它根据文本描述生成图像。我们将使用这个工具为我们的游戏创建一个视觉风格。设置稳定扩散有几种方法可以运行稳定扩散：本地或在线。如果您使用具有良好GPU的台式机并且想要完整的工具集，我建议您使用本地方式。否则，您可以使用在线解决方案。本地我们将使用Automatic1111 WebUI在本地运行稳定扩散。这是一种流行的在本地运行稳定扩散的解决方案，但是设置需要一些技术知识。如果您使用的是Windows，并且有一块至少8GB内存的Nvidia GPU，请继续按照以下说明进行操作。否则，您可以在GitHub存储库的README中找到其他平台的说明，或者选择在线解决方案。 Windows上的安装：要求：一块至少8GB内存的Nvidia GPU。安装Python 3.10.6。在安装过程中确保选中“将Python添加到PATH”。安装git。在命令提示符中输入以下命令来克隆存储库： git…

Continue reading

Leave a Comment

3D 资产生成：游戏开发中的人工智能 #3

Published July 14, 2023 by 四海吧

欢迎来到游戏开发中的人工智能！在这个系列中，我们将使用人工智能工具在短短5天内创建一个完全功能的农场游戏。通过这个系列，您将学习如何将各种人工智能工具纳入游戏开发工作流程中。我将向您展示如何使用人工智能工具进行以下方面的工作：艺术风格游戏设计 3D 资源 2D 资源故事情节想要快速了解视频版本吗？您可以在这里观看。否则，如果您想要技术细节，请继续阅读！注意：本教程适用于熟悉 Unity 开发和 C# 的读者。如果您对这些技术不熟悉，请先查看 Unity 入门系列。第三天：3D 资源在本教程系列的第二部分中，我们使用了游戏设计中的人工智能。更具体地说，我们使用 ChatGPT 来为游戏进行头脑风暴。在本部分中，我们将讨论如何使用人工智能生成 3D 资源。简单来说：目前还不能。这是因为文本到…

Continue reading

Leave a Comment

Hugging Face Hub 适用于图库、图书馆、档案馆和博物馆

Published July 13, 2023 by 四海吧

Hugging Face Hub 用于博物馆、图书馆、档案馆和博物馆的中央仓库 Hugging Face Hub 是什么？ Hugging Face 的目标是使高质量的机器学习可供所有人使用。为了实现这一目标，我们采取了多种方式，包括开发广泛使用的 Transformers 代码库、提供免费课程，并提供 Hugging Face Hub。 Hugging Face Hub 是一个中央仓库，人们可以在其中共享和访问机器学习模型、数据集和演示。该仓库托管了超过190,000个机器学习模型、33,000个数据集以及超过100,000个机器学习应用和演示。这些模型涵盖了从预训练语言模型、文本、图像和音频分类模型、目标检测模型到各种生成模型的广泛任务。托管在 Hub 上的模型、数据集和演示涵盖了广泛的领域和语言，社区定期努力扩大 Hub 提供的范围。本博客旨在为博物馆、图书馆、档案馆和博物馆（GLAM）部门的人员提供了解如何使用和贡献…

Continue reading

Leave a Comment

在8分钟内使用Hamilton简化Airflow DAG的创建和维护

Published July 8, 2023 by 四海吧

本文将为您介绍拥有两个开源项目Hamilton和Airflow以及它们的有向无环图（DAGs）同时工作的好处在高层次上，Airflow负责…

Continue reading

Leave a Comment

设置Python项目：第五部分

Published July 8, 2023 by 四海吧

无论您是经验丰富的开发人员还是刚开始学习🐍 Python，了解如何构建稳健且易于维护的项目都非常重要本教程将指导您完成以下过程：

Continue reading

Leave a Comment

构建适用于企业的机器学习运营

Published June 20, 2023 by 四海吧

在我的职业生涯中，我注意到成功的人工智能战略的关键在于能够将机器学习模型部署到生产环境中，从而在规模上实现其商业潜力然而…

Continue reading

Leave a Comment

在GCP上使用GitHub Actions实现无缝的CI/CD流水线：您的有效MLOps工具

Published June 15, 2023 by 四海吧

部署机器学习管道和 Web 应用程序到 GCP 的教程使用 GitHub Actions 构建 CI/CD 管道以自动化部署MLOps

Continue reading

Leave a Comment

Can't find what you're looking for? Try refining your search:

Web Analytics