Press "Enter" to skip to content

《PromptBreeder里面:谷歌DeepMind新的自我改进提示技术》

这种方法将进化算法与即时优化相结合,取得了显著的结果。

Created Using Midjourney

我最近开始了一个以人工智能为重点的教育性新闻通讯,已经有超过160,000名订阅者了。TheSequence是一份无废话(无炒作,无新闻等)的面向机器学习的通讯,只需5分钟阅读。其目标是让您始终了解机器学习项目、研究论文和概念。请通过订阅以下内容尝试一下:

TheSequence | Jesus Rodriguez | Substack

这是机器学习、人工智能和数据领域最佳的获取最新发展的来源…

thesequence.substack.com

理由推理和提示进化/优化被认为是大型语言模型(LLM)下一个重要领域。我们都被像AutoGPT或BabyAGI这样的项目所迷住,这些项目不断演化提示以实现特定目标,这种方式类似于推理。在增强LLMs的推理能力方面,其中一种卓越的策略是链式思考提示,常因其有效性而受到赞誉。然而,值得注意的是,手工制作的提示策略往往无法达到最佳性能。

最近,Google DeepMind的研究人员发布了PROMPTBREEDER,这是一个使用进化技术为给定任务寻找最佳提示的自我优化的算法。PROMPTBREEDER通过一个简单而超聪明的算法解决了CoT的一些限制,以自我引用的方式改进提示。

基础

Google DeepMind开发的PROMPTBREEDER的概念的灵感来自新兴研究领域:

1. 提示策略:链式思考提示(CoT)是一种被广泛采用的方法。它通过为LLMs提供少量提示促使中间推理步骤,从而显著提高算术、常识和符号推理等方面,特别适用于更强大的LLMs。

2. 自我引用的自我改进:创建一个能够自我改进并改进自己改进方式的无限系统一直是AI研究中的一个长期挑战。这个领域中的一种流行技术是具有自我引用权重矩阵的内省神经网络,使其能够修改自己的权重。Irie等人在2022年提出了这一概念的更可扩展版本。

3. 开放性和LLMs:PROMPTBREEDER借鉴了LLMs能够从示例中生成变体并具备衡量新颖性的能力这一理念。与其他系统相比,Promptbreeder能够自主地探索提示的领域。它代表了从“学习数据”到“学习哪些数据学习”的过渡。

深入探讨

从概念上讲,PROMPTBREEDER可以被视为LLMs中的自我引用自我改进。Promptbreeder的工作过程可以总结如下:

1. 任务提示突变:PROMPTBREEDER从一组任务提示开始,这些提示经过突变产生各种变体。

2. 适应度评估:通过使用训练数据集对这些修改后的任务提示进行评估,衡量LLM对其的响应效果。

3. 持续进化:这个突变和评估过程循环进行多个世代,类似于生物进化。

图片来源:Google DeepMind

面对问题描述,并配备有一套初始的“思维风格”和变异提示,PROMPTBREEDER启动了一个动态的过程。这个过程形成了一个进化单元的群体,每个单元通常由两个任务提示和一个变异提示组成。

在提示演化的探索中,PROMPTBREEDER采用了哈维于2011年开创的一个成熟的二元锦标赛遗传算法框架。为了评估任务提示的强大能力,它的性能经过与随机选择的训练数据进行检验。

在多个代际中,PROMPTBREEDER展开了一次变革之旅。它针对任务提示和变异提示引入突变,利用五种不同类别的突变操作。这个进化之旅导致了越来越适应特定领域的任务提示的出现,同时通过自我参考过程逐步完善其实用性的变异提示。

PROMPTBREEDER利用变异提示、思维风格和特定领域的问题描述的种子集合来生成任务提示和变异提示。LLMs被用作突变操作符。在多个代际中,PB观察到提示适应特定领域,展示了在数学、常识推理、算术和伦理学等各个领域的有效性。

图片来源:Google DeepMind

与一些现有的提示方法(如Chain-of-Thought)不同,PROMPTBREEDER无需参数更新即可实现自我引用式的自我改进。这种方法暗示了一个有前景的未来,在这个未来中,更大和更强大的LLMs可以进一步放大它的好处。

PROMPTBREEDER的基础建立在LLMs可以生成输入文本的变化的洞察之上。任务提示是用来使LLMs在后续输入之后更好地响应的字符串。为了评估任务提示,从相关领域的训练集中抽取一批Q&A对。Promptbreeder采用了进化算法,其中突变操作符是一种以变异提示为条件的LLM。

PROMPTBREEDER一个有趣的方面是其自引用机制,它扩展到任务提示和变异提示。这个元级算法利用以超级变异提示为条件的LLMs来演化变异提示。该过程从初始化一组突变的任务提示开始,每个演化单元由一组任务提示、一个变异提示和在某些情况下还有一组正确解答组成。

总而言之,PROMPTBREEDER通过自我引用式的自我改进,提出了一种增强大型语言模型能力的有前景的方法。它的潜力在于能够自主演化提示,适应特定领域,并为更高效、更强大的LLMs提供一条路径,而无需不断进行参数更新。

Leave a Reply

Your email address will not be published. Required fields are marked *