评估大型语言模型：介绍AgentSims，一个基于任务的人工智能框架，用于全面和客观的测试

评估大型语言模型：介绍AgentSims，一个基于任务的人工智能框架，用于全面和客观的测试四海第1张

LLM已经改变了语言处理（NLP）的思考方式，但其评估问题仍然存在。旧的标准最终变得无关紧要，因为LLM可以使用语言数据以人类水平（OpenAI，2023）进行NLU和NLG。

针对像闭书问答（QA）为基础的知识测试、以人为中心的标准化考试、多轮对话、推理和安全评估等领域的新基准的迫切需求，NLP社区提出了新的评估任务和涵盖各种技能的数据集。

然而，这些更新的标准仍然存在以下问题：

任务格式对可评估的能力施加了限制。大多数这些活动使用单轮QA风格，使其不能充分评估LLM的全面性。
操纵基准很简单。在确定模型的有效性时，测试集不被以任何方式破坏至关重要。然而，由于已经训练了如此多的LLM信息，测试用例与训练数据混合的可能性越来越大。
开放型QA目前可用的度量标准是主观的。传统的开放式QA评估包括客观和主观的人工评分。在LLM时代，基于文本段匹配的度量已不再相关。

研究人员目前正在使用基于良好对齐的LLM（如GPT4）的自动评分器来降低人工评分的高成本。虽然LLM对某些特征有偏见，但该方法的最大问题是无法分析超过GPT4级别的模型。

由PTA Studio、宾夕法尼亚州立大学、北京航空航天大学、中山大学、浙江大学和华东师范大学最近进行的研究提出了AgentSims，这是一种用于为LLM策划评估任务的架构，它具有交互式、视觉吸引力和基于编程的特点。AgentSims的主要目标是通过消除研究人员在编程水平差异上可能面临的障碍来促进任务设计过程。

LLM领域的研究人员可以利用AgentSims的可扩展性和可组合性来研究组合多个计划、记忆和学习系统的效果。AgentSims的用户友好界面用于地图生成和代理管理，使其对行为经济学和社会心理学等各个学科的专家都易于使用。这样的用户友好设计对LLM行业的持续增长和发展至关重要。

研究论文称AgentSims比当前的LLM基准更好，当前的基准只测试少数技能，并使用容易解释的测试数据和标准。社会科学家和其他非技术用户可以通过图形界面的菜单和拖放功能快速创建环境和设计任务。通过修改代码的抽象代理、规划、记忆和工具使用类，AI专业人员和开发人员可以尝试各种LLM支持系统。目标驱动的评估可以确定任务的成功率。总之，AgentSims通过基于明确目标的各种社会模拟来促进跨学科社区发展健壮的LLM基准。