谷歌DeepMind与东京大学研究人员推出WebAgent：一种由LLM驱动的代理，可以根据自然语言指令在真实网站上完成任务

谷歌DeepMind与东京大学研究人员推出WebAgent：一种由LLM驱动的代理，可以根据自然语言指令在真实网站上完成任务四海第1张

通过利用大型语言模型（LLM）的HTML理解和多步推理能力，可以解决一些自然语言任务，包括算术、常识、逻辑推理、问答任务、文本生成，甚至是交互式决策任务。在自主网页导航方面，LLM最近在满足给定的自然语言指令时通过一系列计算机动作控制计算机或浏览互联网展现出了出色的成功。然而，预先定义的动作空间的缺失、与模拟器相比更长的HTML观察以及LLM缺乏HTML领域知识都对实际网站上的网页导航产生了负面影响（图1）。

谷歌DeepMind与东京大学研究人员推出WebAgent：一种由LLM驱动的代理，可以根据自然语言指令在真实网站上完成任务四海第3张 — **图1：**实际网页导航的困难。现代语言模型代理可以探索虚拟网站，在那里他们控制预定义的操作并接收经过简化且易于理解的HTML文本。然而，在导航实际网站时，代理必须处理开放性任务和包含多个与任务无关的组件的较长HTML文本，因此语言模型代理仍然面临困难。

由于指令的复杂性和开放性的实际网站，预先选择正确的动作空间并不容易。尽管有各种研究表明指令微调或从人类输入中进行强化学习可以提高HTML理解和在线导航的准确性，但目前的LLM只有在处理HTML文本方面偶尔具有最佳性能设计。大多数LLM都优先考虑广泛的任务泛化和模型大小可扩展性，通过优先选择较短的上下文持续时间而不是真实网页中的典型HTML令牌，并且不采用过去用于结构化文档的方法，包括文本-XPath对齐和文本-HTML令牌分离。

即使对这样的长文本应用令牌级别的对齐，成本也相对较低。通过在程序空间中对规范的Web操作进行分组，他们提供了WebAgent，这是一个由LLM驱动的自主代理，可以在实际网站上执行导航任务并遵循人类命令。通过将自然语言指令分解为更小的步骤，WebAgent实现了以下功能：

为每个步骤规划子指令。
基于子指令将较长的HTML页面压缩为与任务相关的片段。
在实际网站上执行子指令和HTML片段。

在这项研究中，来自Google DeepMind和东京大学的研究人员结合了两个LLM，创建了WebAgent：最近创建的HTML-T5是一个专业领域的预训练语言模型，用于工作规划和条件HTML摘要生成。Flan-U-PaLM用于基于代码的生成。通过在编码器中包含本地和全局注意力方法，HTML-T5专门用于更好地捕获较长HTML页面的结构语法和语义。它是自我监督的，使用CommonCrawl1创建的大型HTML语料库进行预训练，并结合了长跨度去噪目标。现有的LLM驱动代理通常使用单个LLM完成决策任务，并为每个任务提示各种示例。然而，对于现实世界的任务来说，这是不够的，因为其复杂性超过了模拟器的复杂性。

通过全面的评估，他们的集成策略与插件语言模型相结合，可以提高HTML理解和连接性，并提供更好的泛化能力。全面的研究表明，将任务规划与HTML摘要结合在专门的语言模型中对于任务性能至关重要，可以使实际在线导航的成功率提高50%以上。与声音基准相比，WebAgent在静态网站理解任务中的问答准确性表现优异，并且具有可比较的性能。此外，HTML-T5还作为WebAgent的关键插件，可以独立地在基于Web的任务上产生尖端结果。在MiniWoB++测试中，HTML-T5比天真的局部-全局注意模型及其指令微调变体表现更好，比以前最佳技术提高了14.9%的成功率。

他们主要做出了以下贡献：

• 他们提供了WebAgent，该代理结合了两个LLM，用于实际的网络导航。通用语言模型生成可执行程序，而领域专家语言模型处理规划和HTML摘要。

• 通过采用局部-全局注意力和在大规模HTML语料库上进行长跨度去噪预训练的组合，他们提供了HTML-T5，一种新的HTML特定语言模型。

• 在真实的网站中，HTML-T5的成功率显著提高了50%以上，在MiniWoB++中，它超过了之前的LLM代理14.9%。