Press "Enter" to skip to content

谷歌和多伦多大学的研究人员推出了在现场计算机环境中进行自主学习和任务执行的开创性零射击代理人

大型语言模型(LLMs)在各类实时环境下的行动生成方面表现出了潜力,比如ALFWORLD和ALPHACODE。例如,SAYCAN、REACT、TOOLFORMER和SWIFTSAGE等都是早期工作中展示出的示例。LLMs的使用方式类似于跟随专家路径,理解环境变化,计划和执行未来的活动,并生成API请求。多个研究,包括REFLEXION和SELF-REFINE等,已经证明了通过反复执行任务并进行多轮自我反思可以显著提高任务完成率。LLMs被要求根据环境反馈修改先前的执行计划。这些调整被纳入下一轮行动生成器的提示中。

MINIWOB++ 最近被用作评估模块化计算工作负载上LLM的性能的实验平台。使用任务的全面跟踪示例(WebGUM)进行直接监督、自监督或少量/大量提示(SYNAPSE)是学习任务的标准方法。他们完成了数十个计算任务,任务完成率超过90%,似乎解决了计算控制问题。然而,对于学习新的任务,需要专家跟踪限制了代理程序的能力。是否可以使代理程序在不使用适当选择的跟踪作为指导的情况下,独立地了解和增强其对计算机的控制能力?谷歌研究和多伦多大学的研究人员建议使用一个无预训练代理程序来回答这个问题。

他们的代理程序是建立在最近的LLM PaLM2之上的,它使用一套统一的指令提示来进行所有活动,而不是特定于任务的提示。此外,像RCI、ADAPLANNER和SYNAPSE等当前的工作也使用屏幕表示,这些表示可能包含比屏幕上显示的数据更多的数据。例如,图1展示了在HTML中包含的项目,这些项目提供给LLM,但在屏幕上并没有显示出来。任意利用这一新的知识会使代理程序完成任务变得更容易。然而,在典型的使用场景中,这些信息可能并不容易获取,并且依赖于这些信息可能限制了代理程序的广泛应用。

图1显示了屏幕上的不同显示。图1a-1c显示了按下“更多”按钮之前和之后的社交媒体任务(种子=2)。点击之前,HTML已经使材料可见。图1d-1e:点击标签2(种子=0)存在相似问题。

他们精心评估了MINIWOB++上的13个相当困难的任务,这些任务跨越了多个屏幕,并发现其中有5个包含了包含此类信息的HTML,即单一观测中的多屏幕信息。以下是他们的贡献:首先,与以往的研究相比,他们采用了简化的屏幕表示,使测试环境更全面和现实。其次,他们提供了一个简单但有效的操作规划器,可以精确地在一个状态上规划可执行的操作。他们证明,这种“天真”的方法可以使用最新的LLM能力完成MINIWOB++基准测试中几乎所有简单任务。

为了帮助代理程序从探索性失败中成功学习并在更困难的任务中取得进步,他们提出了一种系统化的思维管理技术,借鉴了REFLEXION的影响。经过几轮尝试后,他们的代理程序实现了与之前的少量/大量提示的最新技术水平相当的性能。根据研究,他们的代理程序是首个零预训练设计用于计算机控制任务的设计。

Leave a Reply

Your email address will not be published. Required fields are marked *