LMSYS机构推出Chatbot Arena：一个匿名、随机对战的众包LLM基准测试平台

LMSYS机构推出Chatbot Arena：一个匿名、随机对战的众包LLM基准测试平台四海第1张

许多开源项目已经开发了全面的语言模型，可以进行特定任务的训练。这些模型可以对用户的问题和命令提供有用的回答。值得注意的例子包括基于LLaMA的Alpaca和Vicuna，以及基于Pythia的OpenAssistant和Dolly。

尽管每周都有新模型发布，但社区仍然在努力适当地对它们进行基准测试。由于LLM助手的问题通常含糊不清，创建一个可以自动评估其回答质量的基准测试系统是困难的。这里通常需要通过配对比较进行人工评估。基于配对比较的可伸缩、渐进和独特的基准测试系统是理想的。

当前的LLM基准测试系统中很少有满足所有这些要求的系统。像HELM和lm-evaluation-harness这样的经典LLM基准框架提供了研究标准任务的多指标测量。然而，它们并不很好地评估自由形式的问题，因为它们不是基于配对比较的。

LMSYS ORG是一个开发开放、可伸缩和易于访问的大型模型和系统的组织。他们的新工作提出了Chatbot Arena，这是一个众包LLM基准测试平台，具有匿名、随机对战的特点。与国际象棋和其他竞技游戏一样，Chatbot Arena采用了Elo评级系统。Elo评级系统在提供上述理想品质方面显示出潜力。

一周前，他们开放了与许多知名的开源LLM一起的竞技场，开始收集信息。可以在众包数据收集方法中看到LLM的一些真实应用示例。用户可以在竞技场中同时与两个匿名模型聊天，进行比较和对比。

FastChat，这个多模型服务系统，在https://arena.lmsys.org上托管了竞技场。进入竞技场的人将面对与两个无名模型的对话。当用户从两个模型那里接收到评论后，他们可以继续对话或者投票选择自己喜欢的模型。投票结束后，模型的身份将被揭示。用户可以继续与同样的两个匿名模型对话，也可以开始与两个新模型的新战斗。系统记录了所有用户的活动。只有在分析中使用了模型名称的时候，投票才会被隐藏。自一个星期前竞技场上线以来，已经统计了大约7000个合法的匿名投票。

未来，他们希望实现改进的抽样算法、锦标赛流程和服务系统，以适应更多样的模型，并为各种任务提供细粒度的排名。