Press "Enter" to skip to content

见AgentBench:一个多维基准,旨在评估各种环境中的大型语言模型作为代理的能力

见AgentBench:一个多维基准,旨在评估各种环境中的大型语言模型作为代理的能力 四海 第1张见AgentBench:一个多维基准,旨在评估各种环境中的大型语言模型作为代理的能力 四海 第2张

大型语言模型(LLMs)已经出现和发展,为人工智能领域增加了一种新的复杂性。通过密集的训练方法,这些模型已经掌握了一些惊人的自然语言处理、自然语言理解和自然语言生成任务,例如回答问题、理解自然语言推理和总结材料。它们还完成了与NLP不常见相关的活动,例如理解人类意图和执行指令。

像AutoGPT、BabyAGI和AgentGPT这样的应用程序利用LLMs实现了自主目标,这些应用程序的实现得益于所有NLP的进步。尽管这些方法引起了公众的浓厚兴趣,但评估LLMs作为代理的标准基线的缺失仍然是一个重大障碍。虽然过去已经使用基于文本的游戏环境来评估语言代理人,但由于其有限和离散的动作空间,它们经常存在一些缺点。此外,它们主要评估模型的常识基础能力。

大多数现有的代理人基准测试都专注于特定的环境,这限制了它们在各种应用场景中对LLMs进行全面评估的能力。为了解决这些问题,清华大学、俄亥俄州立大学和加州大学伯克利分校的研究人员提出了AgentBench,这是一个多维基准测试,旨在评估LLMs作为代理的能力在各种环境中。

AgentBench包含了八个不同的环境,其中五个是全新的:侧面思考难题(LTP)、知识图谱(KG)、数字卡牌游戏(DCG)、操作系统(OS)和数据库(DB)。最后的三个环境——家政(Alfworld)、在线购物(WebShop)和网络浏览(Mind2Web)——是从现有数据集进行改编的。这些环境都经过精心设计,以代表文本化的LLMs可以扮演自主代理的交互情境。它们严格评估LLM的关键能力,如编码、知识获取、逻辑推理和遵循指示,因此AgentBench成为评估代理和LLMs的全面测试平台。

利用AgentBench,研究人员对包括基于API和开源模型在内的25个不同的LLMs进行了深入分析和评估。研究结果显示,像GPT-4这样的顶级模型擅长处理各种现实世界的任务,这意味着可以创建高效能并不断适应的代理人。然而,这些顶级的基于API的模型在性能上明显不如它们的开源替代品。开源LLMs在其他基准测试中表现良好,但当他们面对AgentBench的困难任务时,它们表现不佳。这强调了进一步改进开源LLMs学习能力的需求。

研究的贡献可以总结如下:

  1. AgentBench是一个全面的基准测试,定义了标准化的评估程序,并引入了将LLMs作为代理进行评估的创新概念。它通过整合八个模拟现实世界情境的真实环境,为评估LLMs的各种能力提供了一个有用的平台。
  2. 该研究利用AgentBench对25个不同的LLMs进行了全面评估,揭示了领先的商业API型LLMs和开源替代品之间的显著性能差距。这种评估突出了LLM作为代理的当前状况,并确定了需要改进的领域。
  3. 该研究还提供了一个基于“API&Docker”交互范式的集成工具集,使定制AgentBench评估过程更加容易。这个工具集对更广泛的研究社区可用,结合相关数据集和环境,促进了LLMs领域的合作研究和开发。
Leave a Reply

Your email address will not be published. Required fields are marked *