Press "Enter" to skip to content

通过检索增强生成,提升您的稳定扩散提示

文字图像生成是人工智能领域的一个快速发展领域,应用广泛,涵盖媒体娱乐、游戏、电子商务产品可视化、广告和营销、建筑设计和可视化、艺术创作和医学成像等各个领域。

稳定扩散是一个文字图像模型,使您能够在几秒钟内创建高质量图像。2022年11月,我们宣布AWS客户可以在Amazon Bedrock中使用稳定扩散模型从文本生成图像。Amazon SageMaker JumpStart是一个机器学习(ML)中心,提供模型、算法和解决方案。2023年4月,我们推出了Amazon Bedrock,这是一个全面托管的服务,通过便捷的API提供对尖端基础模型(包括稳定扩散)的访问。

随着越来越多的客户开始进行其文字图像工作,一个常见的障碍出现了,即如何制作能够产生高质量、目标明确的图像的提示。这个挑战通常需要大量的时间和资源,因为用户需要进行多次试验,以发现与其愿景一致的提示。

检索增强生成(RAG)是一个过程,其中语言模型从外部数据源中检索上下文文档,并使用这些信息生成更准确和丰富的文本。这种技术对于知识密集型自然语言处理(NLP)任务特别有用。我们现在将其转化为文字图像生成的世界。在本篇文章中,我们将展示如何利用RAG的力量来增强发送到您的稳定扩散模型的提示。您可以在几分钟内使用Amazon Bedrock上的大型语言模型(LLMs)创建自己的提示生成AI助手,以及在SageMaker JumpStart上。

制作文字图像提示的方法

创建文字图像模型的提示可能一开始看似简单,但实际上是一个复杂的任务。它不仅仅是输入几个字,希望模型能够生成与您心中形象一致的图像。有效的提示应该提供明确的指导,同时留下创造力的空间。它们必须在具体性和模糊性之间取得平衡,并且应该根据特定的模型进行调整。为了解决提示工程的挑战,业界探索了各种方法:

  • 提示库 – 一些公司收集了预先编写的提示库,您可以访问并自定义。这些库包含各种针对不同用例的提示,允许您选择或调整与您特定需求相符的提示。
  • 提示模板和指南 – 许多公司和组织为用户提供一套预定义的提示模板和指南。这些模板为编写提示提供了结构化的格式,使得编写有效的指导变得简单直接。
  • 社区和用户贡献 – 众包平台和用户社区在改进提示方面通常起到重要作用。用户可以与社区分享他们微调的模型、成功的提示、技巧和最佳实践,帮助其他人学习和改进他们的提示编写技巧。
  • 模型微调 – 公司可能对其文字图像模型进行微调,以更好地理解和响应特定类型的提示。微调可以提高模型在特定领域或用例中的性能。

这些行业方法共同努力使得创建有效的文字图像提示的过程更加可行、用户友好且高效,从而提高文字图像生成模型在各种应用中的可用性和多样性。

使用RAG进行提示设计

在这一部分中,我们将深入探讨RAG技术如何与现有的方法协同工作,成为提示工程的一项重要变革。通过无缝集成RAG到这一过程中,我们可以简化和增强提示设计的效率。

提示数据库中的语义搜索

想象一家公司积累了大量的提示信息,在其提示库中或者已经创建了大量的提示模板,每个模板都是为特定的用例和目标而设计的。传统上,寻找文本到图像提示的灵感的用户会手动浏览这些库,经常需要筛选大量的选项。这个过程可能耗时且低效。通过使用文本嵌入模型从提示库中嵌入提示,公司可以构建一个语义搜索引擎。以下是其工作原理:

  • 嵌入提示 – 公司使用文本嵌入将库中的每个提示转换为数字表示。这些嵌入捕捉了提示的语义含义和上下文。
  • 用户查询 – 当用户提供自己的提示或描述他们想要的图像时,系统也可以分析和嵌入他们的输入。
  • 语义搜索 – 使用嵌入,系统进行语义搜索。它根据用户的查询从库中检索到最相关的提示,同时考虑用户的输入和提示库中的历史数据。

通过在其提示库中实施语义搜索,公司使其员工能够轻松访问大量的提示资源。这种方法不仅加速了提示的创建,还鼓励了文本到图像生成中的创造力和一致性。

通过检索增强生成,提升您的稳定扩散提示 四海 第1张

尽管语义搜索简化了查找相关提示的过程,但RAG通过使用这些搜索结果生成优化提示来更进一步。以下是其工作原理:

  • 语义搜索结果 – 在从库中检索到最相关的提示后,系统将这些提示与用户的原始输入一起呈现给用户。
  • 文本生成模型 – 用户可以从搜索结果中选择一个提示或进一步提供关于其偏好的上下文。系统将选择的提示和用户的输入都输入到一个LLM中。
  • 优化提示 – LLM具有对语言细微差别的理解,它会构思一个优化的提示,结合了所选提示和用户的输入元素。这个新的提示根据用户的要求进行了定制设计,旨在产生期望的图像输出。

语义搜索和提示生成的结合不仅简化了查找提示的过程,还确保生成的提示高度相关和有效。它使您能够对提示进行微调和定制,最终导致改进的文本到图像生成结果。下面是使用语义搜索和提示生成的稳定扩散XL生成的图像示例:

原始提示 从语义搜索中获得的提示 由LLM优化过的提示

一个小狗的卡通

通过检索增强生成,提升您的稳定扩散提示 四海 第2张

  • 可爱的卡通狗在餐桌上吃三明治
  • 一只朋克狗的卡通插图,动漫风格,白色背景
  • 一个男孩和他的狗在森林小径上散步的卡通

通过检索增强生成,提升您的稳定扩散提示 四海 第3张

一个卡通场景,男孩高高兴兴地手拉着他可爱的宠物狗在森林小径上走,动画风格。

通过检索增强生成,提升您的稳定扩散提示 四海 第4张

基于RAG的跨行业提示设计应用

在我们探讨我们提出的RAG架构应用之前,让我们从一个最适用于图像生成模型的行业开始。在广告科技领域,速度和创造力至关重要。基于RAG的提示生成可以通过快速生成提示建议,为广告活动快速创建许多图像,从而立即增加价值。决策者可以查看自动生成的图像,选择合适的图像用于广告活动。这个功能可以是独立的应用程序,也可以嵌入当前流行的软件工具和平台。

另一个可以提高媒体和娱乐行业生产力的行业是媒体娱乐。RAG架构可以在头像创建等用例中提供帮助。从简单的提示开始,RAG可以为头像创意增加更多的颜色和特征。它可以生成许多候选提示,并提供更有创意的想法。从这些生成的图像中,您可以找到适合给定应用的完美匹配。它通过自动生成许多提示建议来提高生产力。它所能产生的变化是这个解决方案的直接好处。

解决方案概述

让客户能够使用亚马逊AWS构建基于RAG的AI助手来进行提示设计,是现代技术多功能性的证明。AWS提供了许多选项和服务来促进这一努力。以下参考架构图显示了在AWS上进行提示设计的RAG应用。

通过检索增强生成,提升您的稳定扩散提示 四海 第5张

当选择适合您的AI助手的合适的LLMs时,AWS提供了一个选择范围,以满足您的特定需求。

首先,您可以选择通过SageMaker JumpStart提供的LLMs,利用专用实例。这些实例支持各种模型,包括Falcon、Llama 2、Bloom Z和Flan-T5,或者您可以探索如Cohere的Command和多语言嵌入或AI21 Labs的Jurassic-2等专有模型。

如果您偏向于更简化的方法,AWS提供了在Amazon Bedrock上的LLMs,包括Amazon Titan和Anthropic Claude等模型。这些模型通过简单的API调用轻松访问,让您轻松利用它们的强大功能。选项的灵活性和多样性确保您可以自由选择最符合您的提示设计目标的LLM,无论是寻求与开放容器创新的还是专有模型强大功能的创新。

在构建关键的向量数据库方面,AWS通过其原生服务提供了多种选择。您可以选择Amazon OpenSearch Service、Amazon Aurora或Amazon Relational Database Service(Amazon RDS) for PostgreSQL,每个选项都提供了适应您特定需求的强大功能。或者,您还可以探索AWS合作伙伴的产品,如Pinecone、Weaviate、Elastic、Milvus或Chroma,它们提供了高效的向量存储和检索的专业解决方案。

为了帮助您开始构建基于RAG的AI助手进行提示设计,我们在我们的GitHub库中提供了一个全面的演示。该演示使用了以下资源:

  • 图像生成:Amazon Bedrock上的Stable Diffusion XL
  • 文本嵌入:Amazon Bedrock上的Amazon Titan
  • 文本生成:Amazon Bedrock上的Claude 2
  • 向量数据库:FAISS,用于高效相似度搜索的开源库
  • 提示库:来自DiffusionDB的提示示例,这是用于文本到图像生成模型的首个大规模提示库数据集

此外,我们还引入了LangChain以实现LLM的实施以及Streamit用于Web应用程序组件,提供无缝和用户友好的体验。

前提条件

您需要具备以下条件才能运行此演示应用:

运行演示应用

您可以从GitHub repo下载所有必要的代码和说明。在应用程序部署完成后,您将看到一个类似以下截屏的页面。

通过检索增强生成,提升您的稳定扩散提示 四海 第6张

通过这个演示,我们旨在使实施流程易于理解和掌握,为您提供一种实践的机会来开始您在AWS上的RAG和提示设计之旅。

清理

在尝试应用程序后,通过停止应用程序来清理您的资源。

结论

RAG已经在提示设计领域崭露头角,为Stable Diffusion的文本到图像功能注入了活力。通过将RAG技术与现有方法相结合,并利用AWS的强大资源,我们发现了一条通向流程化创造力和加速学习的路径。

欲了解更多资源,请访问以下链接:

Leave a Reply

Your email address will not be published. Required fields are marked *