见AgentBench：一个多维基准，旨在评估各种环境中的大型语言模型作为代理的能力

见AgentBench：一个多维基准，旨在评估各种环境中的大型语言模型作为代理的能力四海第1张

大型语言模型（LLMs）已经出现和发展，为人工智能领域增加了一种新的复杂性。通过密集的训练方法，这些模型已经掌握了一些惊人的自然语言处理、自然语言理解和自然语言生成任务，例如回答问题、理解自然语言推理和总结材料。它们还完成了与NLP不常见相关的活动，例如理解人类意图和执行指令。

像AutoGPT、BabyAGI和AgentGPT这样的应用程序利用LLMs实现了自主目标，这些应用程序的实现得益于所有NLP的进步。尽管这些方法引起了公众的浓厚兴趣，但评估LLMs作为代理的标准基线的缺失仍然是一个重大障碍。虽然过去已经使用基于文本的游戏环境来评估语言代理人，但由于其有限和离散的动作空间，它们经常存在一些缺点。此外，它们主要评估模型的常识基础能力。

大多数现有的代理人基准测试都专注于特定的环境，这限制了它们在各种应用场景中对LLMs进行全面评估的能力。为了解决这些问题，清华大学、俄亥俄州立大学和加州大学伯克利分校的研究人员提出了AgentBench，这是一个多维基准测试，旨在评估LLMs作为代理的能力在各种环境中。

AgentBench包含了八个不同的环境，其中五个是全新的：侧面思考难题（LTP）、知识图谱（KG）、数字卡牌游戏（DCG）、操作系统（OS）和数据库（DB）。最后的三个环境——家政（Alfworld）、在线购物（WebShop）和网络浏览（Mind2Web）——是从现有数据集进行改编的。这些环境都经过精心设计，以代表文本化的LLMs可以扮演自主代理的交互情境。它们严格评估LLM的关键能力，如编码、知识获取、逻辑推理和遵循指示，因此AgentBench成为评估代理和LLMs的全面测试平台。

利用AgentBench，研究人员对包括基于API和开源模型在内的25个不同的LLMs进行了深入分析和评估。研究结果显示，像GPT-4这样的顶级模型擅长处理各种现实世界的任务，这意味着可以创建高效能并不断适应的代理人。然而，这些顶级的基于API的模型在性能上明显不如它们的开源替代品。开源LLMs在其他基准测试中表现良好，但当他们面对AgentBench的困难任务时，它们表现不佳。这强调了进一步改进开源LLMs学习能力的需求。

研究的贡献可以总结如下：

AgentBench是一个全面的基准测试，定义了标准化的评估程序，并引入了将LLMs作为代理进行评估的创新概念。它通过整合八个模拟现实世界情境的真实环境，为评估LLMs的各种能力提供了一个有用的平台。
该研究利用AgentBench对25个不同的LLMs进行了全面评估，揭示了领先的商业API型LLMs和开源替代品之间的显著性能差距。这种评估突出了LLM作为代理的当前状况，并确定了需要改进的领域。
该研究还提供了一个基于“API＆Docker”交互范式的集成工具集，使定制AgentBench评估过程更加容易。这个工具集对更广泛的研究社区可用，结合相关数据集和环境，促进了LLMs领域的合作研究和开发。