Press "Enter" to skip to content

12 search results for "SDXL 1.0"

为SDXL探索简单的优化方案

稳定扩散 XL(SDXL) 是 Stability AI 最新的潜在扩散模型,用于生成高质量、逼真的图像。它解决了以前稳定扩散模型的一些挑战,例如处理手部和文本的正确性以及空间上正确的构图。此外,SDXL 还更具上下文意识,并且在生成更好的图像时需要较少的提示词。 然而,所有这些改进都以模型更大的代价为代价。有多大呢?基本的 SDXL 模型有 35 亿个参数(特别是 UNet),比以前的稳定扩散模型大约大了 3 倍。 为了探索如何优化 SDXL 的推理速度和内存使用,我们在 A100 GPU(40 GB)上进行了一些测试。对于每次推理运行,我们会生成 4 张图像,并重复 3 次。在计算推理延迟时,我们只考虑…

Leave a Comment

时尚中的GenAI | Segmind稳定扩散XL 1.0方法

介绍 时尚界一直在寻求方法来保持创新的前沿,以满足消费者不断变化的口味和偏好。如果你对时尚感兴趣,或者是一个时尚迷,你应该考虑稳定扩散器的能力。Segmind API使这一可能性变得非常容易。人工智能(AI)已经成为时尚界的一个改变者,改变了设计师创作、营销和销售产品的方式。本文将探讨Segmind Stable Diffusion XL 1.0在时尚界中的GenAI方法及其对行业的影响。 学习目标 介绍生成人工智能 稳定扩散的概念 时尚爱好者的GenAI应用和用例 稳定扩散的特点及其在时尚界中的可能性 对GenAI伦理的一瞥 本文是作为数据科学博文的一部分发表的。 生成AI 生成人工智能是AI的一个分支,它利用过去学到的相似性,采用创建/生成以前不存在的新想法的方法。例如,我们可以看到一个GenAI模型,它在棉花角色上进行训练,生成新的卡通图像。与AI中只是将新图像分类为卡通或非卡通不同,GenAI现在可以生成一种不包括它训练过的任何先前图像的新卡通图像。这打开了各种可能性,在本文中,我们只考虑其中一种可能性:在时尚界使用Segmind模型。 AI与时尚的交汇 正如我们所介绍的,时尚是一个不断发展的领域,受创造力、潮流和消费者偏好的推动。传统上,设计师和时尚品牌依靠人类创造力来创造新的风格和系列。这个过程耗时且常常限制创新。这就是GenAI发挥作用的地方。 时尚中的生成AI利用强大的算法和海量数据集生成独特而创新的设计、图案和风格。它还允许时尚设计师和品牌简化创意过程,缩短生产时间,并探索新的创意思路。 介绍Segmind Stable Diffusion XL 1.0 Segmind拥有各种用于各种GenAI任务的模型,可以随时使用,无需任何额外设置。所有这些模型都可以在网站上找到,并且结构良好,因此很容易浏览各种可用选项。在首页上,“Models”导航栏可以导航到所有模型的列表。这提供了一个令人震惊的模型收藏,帮助您轻松找到适合您特定用例的模型。…

Leave a Comment

使用T2I适配器的高效可控SDXL生成

T2I-Adapter 是一种高效的即插即用模型,它在冻结原始大型文本到图像模型的同时,为其提供额外的指导。T2I-Adapter 通过将 T2I 模型内部知识与外部控制信号进行对齐,可以根据不同条件训练各种适配器,并实现丰富的控制和编辑效果。 作为一项同时进行的工作,ControlNet 具有类似的功能并广泛使用。然而,运行 ControlNet 可能会导致计算开销大。这是因为,在反向扩散过程的每个去噪步骤中,需要同时运行 ControlNet 和 UNet。此外,ControlNet 强调将 UNet 编码器复制为控制模型的重要性,导致参数数量更多。因此,生成过程受到 ControlNet 的大小(越大,过程越慢)的限制。 T2I-Adapters 在这方面为 ControlNets 提供了竞争优势。T2I-Adapters 尺寸较小,并且与 ControlNets 不同,T2I-Adapters 只需在整个去噪过程中运行一次。…

Leave a Comment

🧨 使用云TPU v5e和JAX加速稳定的XL推理扩散

生成AI模型,例如Stable Diffusion XL(SDXL),可以创建具有广泛应用的高质量、逼真的内容。然而,利用这种模型的威力面临着重大的挑战和计算成本。SDXL是一个大型图像生成模型,其UNet组件比模型的先前版本的大约三倍。将这样的模型部署到生产环境中具有挑战性,因为它增加了内存需求,并增加了推理时间。今天,我们非常高兴地宣布,Hugging Face Diffusers现在支持使用JAX在Cloud TPUs上提供SDXL,实现高性能和高效的推理。 Google Cloud TPUs是定制的AI加速器,经过优化,用于训练和推理大型AI模型,包括最先进的语言模型和生成AI模型,例如SDXL。新的Cloud TPU v5e专为大规模AI训练和推理提供所需的成本效益和性能。TPU v5e的成本不到TPU v4的一半,使更多组织能够训练和部署AI模型成为可能。 🧨 Diffusers JAX集成提供了一种方便的方式,通过XLA在TPU上运行SDXL,我们构建了一个演示来展示它。您可以在这个空间或下面的嵌入式平台上尝试它。 在底层,这个演示在几个TPU v5e-4实例上运行(每个实例有4个TPU芯片),利用并行化在大约4秒内提供四个1024×1024大小的大图像。这个时间包括格式转换、通讯时间和前端处理;实际生成时间约为2.3秒,我们后面会看到的! 在这篇博文中, 我们描述了为什么JAX + TPU + Diffusers是运行SDXL的强大框架 解释了如何使用Diffusers和JAX编写一个简单的图像生成流水线…

Leave a Comment

使用推理API部署AI漫画工厂

我们最近宣布了我们的新产品PROs的推论,使更大的模型对更广泛的用户群体可用。这个机会为使用Hugging Face作为平台运行最终用户应用程序开启了新的可能性。 这样一个应用程序的示例是AI漫画工厂 – 一个极其受欢迎的空间。成千上万的用户尝试使用它创建自己的AI漫画画布,从而形成了自己的常用用户社区。他们分享自己的作品,甚至有些人还打开了拉取请求。 在本教程中,我们将向您展示如何fork和配置AI漫画工厂以避免长时间等待,并使用推理API部署到您自己的私有空间。这不需要强大的技术技能,但建议了解API、环境变量以及LLMs和Stable Diffusion的基本理解。 入门 首先,确保您注册了PRO Hugging Face账户,因为这将使您能够访问Llama-2和SDXL模型。 AI漫画工厂的工作原理 AI漫画工厂与在Hugging Face上运行的其他空间有所不同:它是一个使用Docker部署的NextJS应用程序,基于客户端-服务器方法,需要两个API才能工作: 语言模型API(目前为Llama-2) 稳定扩散API(目前为SDXL 1.0) 复制空间 要复制AI漫画工厂,请转到该空间并单击“复制”: 您会发现空间所有者、名称和可见性已经为您填好,所以您可以保留这些值。 您的空间副本将在一个不需要太多资源的Docker容器中运行,因此您可以使用最小的实例。官方的AI漫画工厂空间使用较大的CPU实例,因为它满足了一个庞大的用户群体。 要在您的帐户下操作AI漫画工厂,您需要配置您的Hugging Face令牌: 选择LLM和SD引擎 AI漫画工厂支持各种后端引擎,可以使用两个环境变量进行配置:…

Leave a Comment

动态LoRA加载以实现更好的性能和优化的资源使用

我们已经成功地将基于扩散模型的 LoRA Hub 推断速度大大提高。这使得我们能够节省计算资源并提供更好的用户体验。 要对给定的模型进行推断,有两个步骤: 预热阶段 – 包括下载模型和设置服务(25秒)。 推断作业本身(10秒)。 通过这些改进,我们能够将预热时间从25秒减少到3秒。我们能够为数百个不同的 LoRA 提供推断服务,只需要不到 5 个 A10G GPU,同时用户请求的响应时间从 35 秒减少到 13 秒。 让我们更详细地讨论如何利用在 Diffusers 库中开发的一些最新功能,以一种动态方式使用单一服务为许多不同的 LoRA 提供服务。…

Leave a Comment

易于应用集成的前五种稳定扩散API

介绍 在人工智能时代,API是解决企业面临的重要挑战之一,即将AI模型整合到软件和应用中时的高计算要求的一种解决方案。这种解决方案被称为应用程序编程接口(API)。API可以帮助你摆脱维护的麻烦,让你专注于业务逻辑和用户体验。这意味着任何人都可以利用这些API构建和商业化应用。本文将探讨稳定扩散API,这是一组专注于图像生成的生成式AI模型,这些模型对于各种应用程序至关重要。 我们首先将看到Segmind API,这是一个非常高效和有效的选择。这些API已经彻底改变了开发人员、设计师和创作者处理视觉内容生成的方式。我们将探索一些排名前五的稳定扩散API,重点介绍它们的特点、用途、定价等等。 学习目标 深入了解稳定扩散模型。 了解稳定扩散模型的基础知识,包括它们的应用。 了解现代软件开发中的API。 探索API在简化软件和应用开发中的关键作用。 本文是数据科学博文马拉松的一部分。 了解稳定扩散模型 什么是稳定扩散模型? 稳定扩散模型是一类专注于生成高质量图像的生成式AI模型。这些模型旨在生成具有各种应用的逼真、高分辨率图像。它们的特点是稳定和可靠,对于图像合成、风格转移和数据增强等任务非常有帮助。 稳定扩散模型使用扩散过程生成图像,从而逐渐向图像添加噪声,直到演化为复杂而连贯的输出。这个过程确保生成的图像具有高质量并展现出细节。 什么是API? API,或应用程序编程接口,是一组规则和协议,允许一个软件应用程序与另一个应用程序、服务或平台的功能或数据进行交互。API是中介,实现软件之间的集成。 在软件开发中,API为开发人员提供了一种访问功能、服务或数据的方式,包括云服务、数据库或AI模型等源,而无需理解底层复杂性。这简化了开发过程,加速了功能丰富应用的创建。 API可以采用多种形式,包括RESTful API、gRPC API和WebSocket API,每种都针对特定的用例。在现代软件中,它们发挥着关键作用,使开发人员能够利用第三方服务和功能的强大能力,同时专注于核心应用程序逻辑。 前五稳定扩散API 让我们来看看我们列表上排名靠前的稳定扩散API,首先是用户友好的Segmind API。 1.…

Leave a Comment

这篇AI论文介绍了LCM-LoRA:通过先进的潜在一致性模型和LoRA蒸馏来改变文本到图像生成任务的革命性方法

“` 潜在扩散模型是机器学习中常用的生成模型,特别是在概率建模中。这些模型旨在捕捉数据集的潜在结构或潜在变量,通常专注于生成逼真的样本或作出预测。它们描述了系统随时间的演变。这可以指从初始分布通过一系列步骤或扩散过程将一组随机变量转化为所需分布。 这些模型基于ODE-Solver方法。尽管减少了推理步骤的数量,但它们仍然需要大量的计算开销,特别是在融入无分类器的引导时。Guided-Distill等蒸馏方法是有希望的,但由于它们的计算需求密集,必须进行改进。 为了解决这些问题,出现了对潜在一致性模型的需求。他们的方法涉及到一个反向扩散过程,将其视为增广的概率流ODE问题。他们创新地在潜在空间中预测解,并通过数值ODE求解器避免了迭代解决方案的需要。在生成高分辨率图像的remarkable综合中,只需要1到4个推理步骤。 清华大学的研究人员通过将LoRA蒸馏应用到Stable-Diffusion模型中,包括SD-V1.5、SSD-1B和SDXL,扩展了LCM的潜力。他们通过实现卓越的图像生成质量,扩大了LCM在具有显著较少内存消耗的大型模型中的应用范围。对于专用数据集,如动画、照片逼真或幻想图像,还需要额外的步骤,例如使用潜在一致性蒸馏(LCD)将预训练的LDM蒸馏为LCM,或直接使用LCF对LCM进行微调。然而,在自定义数据集上是否可以实现快速、无需训练的推理呢? 团队引入了LCM-LoRA作为一个通用的无训练加速模块,可以直接插入到各种Stable-Diffusion经过微调的模型中来回答这个问题。在LoRA的框架内,所得到的LoRA参数可以无缝地集成到原始模型参数中。团队已经证明了在潜在一致性模型(LCMs)蒸馏过程中应用LoRA的可行性。LCM-LoRA参数可以直接与其他LoRA参数组合,并在特定风格的数据集上进行微调。这将使人们能够在特定风格中以最少的采样步骤生成图像,而无需任何进一步的训练。因此,它们代表了适用于各种图像生成任务的一种普遍适用的加速器。 这种创新方法显著减少了迭代步骤的需求,实现了从文本输入快速生成高保真度图像,并为最先进的性能设定了新的标准。LoRA显著减少了需要修改的参数的数量,从而提高了计算效率,并允许用较少的数据进行模型改进。 “`

Leave a Comment

在Mac上稳定使用高级Core ML量化的Diffusion XL

昨天发布了稳定扩散 XL,它非常棒。它可以生成大尺寸(1024×1024)的高质量图像;通过一些新的技巧改进了对提示的遵循性;由于最新的噪声调度器研究,它可以轻松产生非常暗或非常明亮的图像;而且它是开源的! 不足之处是,该模型更大,因此在消费者硬件上运行速度更慢,更困难。使用最新版本的 Hugging Face 扩散器库,您可以在 16 GB 的 GPU 内存上的 CUDA 硬件上运行稳定扩散 XL,从而可以在 Colab 的免费版本上使用它。 过去几个月表明,人们对于出于各种原因在本地运行 ML 模型非常感兴趣,包括隐私、便利性、更容易的实验或不受计量的使用。我们在 Apple 和 Hugging Face 都在努力探索这个领域。我们已经展示了如何在 Apple…

Leave a Comment

Can't find what you're looking for? Try refining your search: