Press "Enter" to skip to content

ChatGPT和先进的提示工程:推动AI的演进

OpenAI一直在开发革命性的工具,如OpenAI Gym,用于训练强化学习算法,以及GPT-n模型。DALL-E也备受关注,它是一种从文本输入中生成图像的AI模型。其中一种引起 considerable attention 的模型是OpenAI的ChatGPT,在大型语言模型领域中是一个闪亮的典范。

GPT-4:Prompt工程

ChatGPT改变了聊天机器人的格局,为用户输入提供类似人类的回应,并将其应用领域扩展到各个领域-从软件开发和测试到业务沟通,甚至是诗歌创作。

在企业和个人的手中,例如GPT-4可以作为一个源源不断的知识库,精通从数学和生物学到法学等各个学科。这样复杂且易于使用的AI模型注定要重新定义工作、学习和创造力的未来。

ChatGPT和先进的提示工程:推动AI的演进 四海 第1张

GPT-4等生成模型可以基于现有输入生成新的数据。这种独特的特性使它们能够执行各种任务,包括生成文本、图像、音乐和视频。

在ChatGPT和OpenAI模型的上下文中,prompt是用户通常以文本形式提供给模型的输入。Prompt是控制这些模型生成的输出的主要手段,因此对于成功和相关的对话至关重要。

Prompt质量的影响

使用明确定义的prompt是与AI系统进行有用和有意义对话的关键。定义不清的prompt可能导致对用户无用甚至误导性的内容。

为了展示prompt质量的影响,让我们比较给ChatGPT两个不同的prompt。第一个prompt定义不清且假设了先前的知识,生成的响应可能对用户没有帮助。另一方面,第二个prompt提供了更多的上下文和示例,确保了更相关和可理解的响应。

Prompt 1: “告诉我关于卷积神经网络。”

Response 1: “卷积神经网络(CNN)是由全连接层和池化层组成的多层感知器网络。它们通常用于图像识别任务。该过程涉及将过滤器应用于输入图像并使用池化层进行降采样。”

Prompt 2: “我想了解卷积神经网络,但我对人工神经网络没有任何先前的了解。能否请您提供一个适合初学者理解的解释,并且给出一个CNN在图像识别中的使用示例?”

Response 2: “卷积神经网络(CNN)是一种主要用于图像识别任务的神经网络类型。与其他神经网络不同,它们利用卷积层和池化层来处理图像。想象一下你有一张猫的图片。CNN可以通过应用过滤器和使用池化层对图像进行降采样来识别图像中的不同特征,例如胡须、耳朵和尾巴。这个过程使得CNN在图像中识别物体非常有效。”

通过比较这两个响应,可以明显看出一个明确定义的prompt会产生更相关和用户友好的响应。Prompt设计和工程是旨在优化ChatGPT等AI模型输出质量的新兴学科。

在本文的后续部分,我们将深入探讨用于改进大型语言模型(LLMs)的高级方法,如prompt工程技术和策略。这些包括few-shot learning、ReAct、chain-of-thought、RAG等等。

高级工程技术

在继续之前,了解LLMs的一个关键问题非常重要,这个问题被称为“幻觉”。在LLMs的上下文中,“幻觉”表示这些模型生成的输出可能看起来合理,但并不基于事实的现实或给定的输入上下文。

最近的一个法庭案例中,一位辩护律师使用ChatGPT进行法律研究时凸显了这个问题。由于其幻觉问题而出错,AI工具引用了不存在的法律案例。这个错误产生了重大影响,导致了混乱并削弱了诉讼过程中的可信度。这个事件提醒我们迫切需要解决AI系统中“幻觉”问题。

我们对提示工程技术的探索旨在改善LLMs的这些方面。通过增强其效率和安全性,为信息提取等创新应用铺平道路。此外,它还为LLMs与外部工具和数据源的无缝集成打开了大门,拓宽了其潜在用途的范围。

零样本和少样本学习:通过示例进行优化

生成预训练变换器(GPT-3)是生成式AI模型发展的一个重要转折点,它引入了“少样本学习”的概念。由于它能够在不需要全面微调的情况下有效运行,这种方法是一个改变游戏规则的因素。GPT-3框架在论文“语言模型是少样本学习器”中进行了讨论,作者展示了模型如何在各种用例中表现出色,而无需定制数据集或代码。

与需要持续努力解决不同用例的微调相比,少样本模型在更广泛的应用领域中表现出更易适应性。虽然微调可能在某些情况下提供强大的解决方案,但在大规模应用中可能会很昂贵,因此在与提示工程集成时使用少样本模型是一种更实际的方法。

想象一下你正在尝试将英语翻译成法语。在少样本学习中,您会向GPT-3提供一些翻译示例,例如“sea otter -> loutre de mer”。GPT-3作为一种先进模型,能够继续提供准确的翻译。在零样本学习中,您不会提供任何示例,但GPT-3仍然能够有效地将英语翻译成法语。

术语“少样本学习”来源于模型只给出有限数量示例进行“学习”的概念。需要注意的是,在这种情况下,“学习”并不涉及更新模型的参数或权重,而是影响模型的性能。

ChatGPT和先进的提示工程:推动AI的演进 四海 第2张

在GPT-3论文中展示的少样本学习

零样本学习将这一概念推向更远。在零样本学习中,模型不提供任务完成的任何示例。模型应该基于其初始训练表现良好,使其成为开放域问答场景(如ChatGPT)的理想方法。

在许多情况下,擅长零样本学习的模型在提供少样本甚至单样本示例时也能表现良好。大型模型在零样本、单样本和少样本学习场景之间切换的能力强调了其在不同领域中的适应性和潜在应用。

零样本学习方法越来越普遍。这些方法的特点是能够识别在训练过程中未见过的对象。下面是一个实际的少样本提示的例子:

“将以下英文短语翻译成法语:

'sea otter'翻译成'loutre de mer' 'sky'翻译成'ciel' 'What does 'cloud' translate to in French?'"

通过向模型提供一些示例,然后提出问题,我们可以有效地引导模型生成所需的输出。在这种情况下,GPT-3很可能会将“cloud”正确翻译为法语中的“nuage”。

我们将更深入地探讨提示工程的各种微妙之处,以及它在优化模型推理性能中的关键作用。我们还将探讨如何有效地利用它来创建成本效益高且可扩展的解决方案,适用于广泛的用例。

随着我们进一步探索GPT模型中的提示工程技术的复杂性,重要的是要强调我们之前的帖子“ChatGPT中的提示工程基本指南”。该指南提供了关于如何在多种用例中有效地指导AI模型的策略的见解。

在我们之前的讨论中,我们深入探讨了大型语言模型(LLMs)的基本提示方法,如零样本学习和少样本学习,以及指令提示。掌握这些技术对于应对我们将在这里探索的更复杂的提示工程挑战至关重要。

由于大多数LLMs的上下文窗口受限,少样本学习可能会受到限制。此外,如果没有适当的保护措施,LLMs可能会被误导以产生潜在有害的输出。此外,许多模型在推理任务或遵循多步指令方面存在困难。

鉴于这些限制,挑战在于利用LLMs来解决复杂任务。一个明显的解决方案可能是开发更先进的LLMs或改进现有的LLMs,但这可能需要大量的努力。因此,问题是:我们如何优化当前的模型以改进问题解决能力?

同样令人着迷的是探索这种技术如何与联合AI的“AI艺术精通:中途和提示工程简明指南”中的创意应用相结合,这本书描述了艺术和AI的融合如何产生令人惊叹的艺术作品。

思维链提示

思维链提示利用了大型语言模型(LLMs)固有的自回归特性,这些模型在预测给定序列中的下一个词方面表现出色。通过提示模型阐明其思维过程,可以引发更全面、有条理的创意生成,这往往与准确信息密切相关。这种一致性源于模型倾向于以深思熟虑和有序的方式处理和传递信息,类似于一个人类专家引导听众理解复杂概念。一个简单的陈述,比如“逐步向我解释如何……”通常足以触发更冗长、更详细的输出。

零-shot思维链提示

而传统的思维链提示需要先进行演示的预训练,零-shot思维链提示是一种新兴领域。这种方法由Kojima等人于2022年提出,通过在原始提示中创新地添加短语“让我们逐步思考”,实现了零-shot思维链提示。

让我们创建一个高级提示,要求ChatGPT总结AI和NLP研究论文的要点。

在这个演示中,我们将利用模型理解和总结学术文本中的复杂信息的能力。利用少样本学习的方法,让我们教导ChatGPT总结AI和NLP研究论文的主要发现:

1. 论文标题:“Attention Is All You Need” 主要发现:引入了Transformer模型,强调注意力机制在序列转导任务中的重要性超过循环层。

2. 论文标题:“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” 主要发现:引入了BERT,展示了预训练深度双向模型的有效性,从而在各种NLP任务上取得了最先进的结果。

现在,基于这些示例的背景,总结以下论文的主要发现:

论文标题:“大型语言模型中的提示工程:一项考察”

这个提示不仅保持了清晰的思路链,还利用了少样本学习的方法来指导模型。它与我们的关键词相关,重点关注AI和NLP领域,具体要求ChatGPT执行一个与提示工程相关的复杂操作:总结研究论文。

反应提示

反应,或“Reason and Act”,是由谷歌在论文“ReAct: Synergizing Reasoning and Acting in Language Models”中介绍的,它彻底改变了语言模型与任务的交互方式,提示模型动态生成言语推理轨迹和任务特定的行动。

想象一个厨师在厨房里:他们不仅执行一系列的动作(切菜、煮水、搅拌食材),还会进行言语推理或内部言语(“现在蔬菜切好了,我应该把锅放在炉子上”)。这种持续的心理对话有助于制定策略,适应突发变化(“我没有橄榄油了,我会用黄油代替”),并记住任务的顺序。反应模仿了这种人类能力,使模型能够快速学习新任务并做出稳健的决策,就像人类在新的或不确定的环境下一样。

反应可以解决思维链系统中常见的幻觉问题。思维链虽然是一种有效的技术,但缺乏与外部世界的交互能力,这可能导致事实幻觉和错误传播。反应通过与外部信息源进行交互来弥补这一点。这种交互不仅允许系统验证其推理,还可以根据外部世界的最新信息更新其知识。

反应的基本工作原理可以通过HotpotQA的一个实例来解释,这是一个需要高阶推理的任务。在接收到一个问题后,反应模型将问题分解为可管理的部分,并创建一个行动计划。模型生成推理轨迹(思考)并确定相关的行动。它可以决定在外部源(如维基百科)上查找有关Apple Remote的信息(行动),并根据获得的信息更新其理解(观察)。通过多个思考-行动-观察步骤,反应可以检索信息来支持其推理,同时调整下一个需要检索的内容。

注意:

HotpotQA是一个数据集,从维基百科衍生而来,由113,000个问题-答案对组成,旨在训练AI系统进行复杂推理,因为这些问题需要通过多个文档进行推理来回答。另一方面,通过游戏化构建的CommonsenseQA 2.0包含14,343个是/否问题,旨在挑战AI对常识的理解,因为这些问题有意设计为误导AI模型。

过程可能如下所示:

  1. 思考:“我需要搜索Apple Remote及其兼容设备。”
  2. 行动:在外部来源上搜索“Apple Remote兼容设备”。
  3. 观察:从搜索结果中获取与Apple Remote兼容的设备列表。
  4. 思考:“根据搜索结果,除了Apple Remote之外,还有几个设备可以控制它最初设计用于交互的程序。”

结果是一个基于推理的动态过程,它可以根据与之交互的信息不断演变,从而得到更准确可靠的响应。

ChatGPT和先进的提示工程:推动AI的演进 四海 第3张

解决HotpotQA和AlfWorld的四种提示方法-标准、思维链、仅行动和ReAct的比较可视化(https://arxiv.org/pdf/2210.03629.pdf)

设计React代理是一项专门的任务,因为它具有实现复杂目标的能力。例如,基于基础React模型构建的会话代理结合了会话记忆,以提供更丰富的交互。然而,这项任务的复杂性可以通过诸如Langchain等工具来简化,该工具已成为设计这些代理的标准。

上下文忠实的提示

论文《大型语言模型的上下文忠实提示》强调,虽然LLM在知识驱动的自然语言处理任务中取得了重大成功,但它们过度依赖参数化知识可能会在上下文敏感任务中使其偏离轨道。例如,当语言模型训练于过时的事实时,如果忽视上下文线索,它可能会产生错误的答案。

这个问题在知识冲突的实例中表现得很明显,其中上下文包含与LLM的现有知识不同的事实。考虑这样一个实例,一个在2022年世界杯之前的数据上进行了训练的大型语言模型(LLM),给定一个指示法国赢得比赛的上下文。然而,LLM依赖于其预训练的知识,继续坚称上一届冠军,即在2018年世界杯中获胜的球队仍然是现任冠军。这展示了一个经典的“知识冲突”的案例。

实质上,LLM中的知识冲突是指上下文中提供的新信息与模型训练时的现有知识相矛盾。模型倾向于依赖其先前的训练而不是新提供的上下文,可能会产生错误的输出。另一方面,LLM中的幻觉是生成看似合理但不基于模型的训练数据或提供的上下文的响应。

当提供的上下文没有足够的信息来准确回答问题时,就会出现另一个问题,即“预测并弃权”。例如,如果LLM被问到微软的创始人是谁,而上下文没有提供这个信息,它应该理想地选择弃权而不是猜测。

ChatGPT和先进的提示工程:推动AI的演进 四海 第4张

更多知识冲突和弃权的例子

为了改善LLM在这些情况下的上下文忠实度,研究人员提出了一系列提示策略。这些策略旨在使LLM的响应更加关注上下文,而不是依赖其编码的知识。

其中一种策略是将提示构建为基于观点的问题,其中上下文被解释为叙述者的陈述,而问题涉及到这个叙述者的观点。这种方法将LLM的注意力重新聚焦到呈现的上下文上,而不是依赖其先前的知识。

在存在知识冲突的情况下,将反事实演示添加到提示中也被确定为增加忠实度的有效方法。这些演示呈现具有错误事实的情景,引导模型更加关注上下文以提供准确的响应。

指令微调

指令微调是一种监督学习阶段,通过向模型提供特定的指令来进行训练,例如,“解释日出和日落之间的区别。” 指令与相应的答案配对,例如,“日出是指太阳在早晨从地平线上升起的时刻,而日落是指太阳在傍晚从地平线下降的时刻。” 通过这种方法,模型基本上学会了如何遵循和执行指令。

这种方法显著影响了提示语言模型的过程,导致提示风格发生了根本性的变化。经过指令微调的语言模型可以立即执行零样本任务,实现无缝的任务执行。如果语言模型尚未经过微调,可能需要采用几个示例将其引导到期望的回答。

“使用GPT-4进行指令微调”讨论了使用GPT-4生成用于微调语言模型的指令遵循数据的尝试。他们使用了一个丰富的数据集,包括英文和中文的52,000个独特的指令遵循条目。

数据集在指令微调LLaMA模型中起着关键作用,LLaMA模型是一系列开源的语言模型,通过这些模型可以在新任务上实现更好的零样本性能。像斯坦福大学的Alpaca等值得注意的项目已经成功地利用了自我指导微调的方法,通过由经过指令微调的高级教师模型生成的数据来对齐语言模型与人类意图。

ChatGPT和先进的提示工程:推动AI的演进 四海 第5张

指令微调研究的主要目标是提高语言模型在零样本和少样本泛化能力方面的表现。进一步的数据和模型扩展可以提供有价值的洞察。当前GPT-4数据集大小为52K,基础LLaMA模型参数数量为70亿,有巨大的潜力收集更多的GPT-4指令遵循数据,并将其与其他数据源相结合,用于训练更大的LLaMA模型,以获得更卓越的性能。

STaR:通过推理来引导推理

语言模型的潜力在复杂的推理任务中尤为明显,例如数学或常识问答。然而,让语言模型生成推理(一系列逐步解释或“思维链”)的过程也存在一些挑战。这往往需要构建大规模的推理数据集,或者由于仅依赖少样本推理而导致准确性的牺牲。

“自我教授推理者”(STaR)为这些挑战提供了创新的解决方案。它利用一个简单的循环持续改进模型的推理能力。这个迭代过程从使用少量的合理示例生成推理来回答多个问题开始。如果生成的答案是错误的,模型会再次尝试生成推理,这次给出正确的答案。然后,模型在导致正确答案的所有推理上进行微调,然后重复这个过程。

ChatGPT和先进的提示工程:推动AI的演进 四海 第6张

STaR方法演示了其微调循环以及在CommonsenseQA数据集上生成样本推理的示例(https://arxiv.org/pdf/2203.14465.pdf)

为了用一个实际例子来说明这一点,考虑问题“什么可以用来携带小狗?” 答案选项从游泳池到篮子都有。STaR模型生成一个推理,确定答案必须是能够携带小狗的东西,并得出结论,篮子是正确答案,因为它设计用来放置物品。

STaR的方法独特之处在于利用了语言模型的现有推理能力。它采用自我生成和推理细化的过程,迭代地引导模型的推理能力。然而,STaR的循环也有其局限性。模型可能无法解决训练集中的新问题,因为它没有直接针对未能解决的问题进行训练。为了解决这个问题,STaR引入了合理化。对于模型未能正确回答的每个问题,它通过提供正确答案为模型生成一个新的推理,这使得模型能够进行反向推理。

因此,STaR是一种可扩展的引导方法,允许模型学习生成自己的推理,同时学习解决越来越困难的问题。STaR在涉及算术、数学问题和常识推理的任务中已经显示出有希望的结果。在CommonsenseQA上,STaR的表现超过了少样本基线和直接预测答案微调基线,并且与一个规模为30倍的模型表现相当。

标记的上下文提示

“标记的上下文提示”的概念围绕着为AI模型提供额外的上下文层次,通过在输入中标记特定信息。这些标记本质上充当AI的路标,指导其如何准确解释上下文并生成相关且准确的回答。

想象一下,你正在与朋友谈论某个话题,比如“国际象棋”。你发表了一个声明,然后用一个引用标记,比如“(来源:维基百科)”。现在,你的朋友,也就是AI模型,知道了你的信息来自哪里。这种方法旨在通过减少幻觉或虚假事实的产生,使AI的回答更加可靠。

标记的上下文提示的一个独特之处在于它们有助于提高AI模型的“上下文智能”。例如,该论文使用从多个来源提取的各种问题作为示例,比如关于各种主题的维基百科文章的摘要和最近出版书籍的章节。这些问题都被标记了,为AI模型提供了关于信息来源的额外上下文。

这种额外的上下文层次在生成准确且与提供的上下文相符的回答方面非常有益,使AI的输出更加可靠和可信。

结论:有希望的技术和未来发展方向

OpenAI的ChatGPT展示了大型语言模型(LLM)在高效处理复杂任务方面的未知潜力。通过少量样本学习、ReAct提示、思维链和STaR等先进技术,我们能够在众多应用领域中发挥这一潜力。随着我们深入了解这些方法的细微差别,我们发现它们正在塑造人工智能领域的格局,为人与机器之间提供更丰富、更安全的互动。

尽管面临知识冲突、过度依赖参数化知识和产生幻觉的潜在挑战,但通过正确的提示工程,这些AI模型已被证明是具有变革性的工具。指导微调、忠实于上下文的提示以及与外部数据源的整合进一步增强了它们的推理、学习和适应能力。

Leave a Reply

Your email address will not be published. Required fields are marked *