Press "Enter" to skip to content

LMSYS机构推出Chatbot Arena:一个匿名、随机对战的众包LLM基准测试平台

LMSYS机构推出Chatbot Arena:一个匿名、随机对战的众包LLM基准测试平台 四海 第1张LMSYS机构推出Chatbot Arena:一个匿名、随机对战的众包LLM基准测试平台 四海 第2张

许多开源项目已经开发了全面的语言模型,可以进行特定任务的训练。这些模型可以对用户的问题和命令提供有用的回答。值得注意的例子包括基于LLaMA的Alpaca和Vicuna,以及基于Pythia的OpenAssistant和Dolly。

尽管每周都有新模型发布,但社区仍然在努力适当地对它们进行基准测试。由于LLM助手的问题通常含糊不清,创建一个可以自动评估其回答质量的基准测试系统是困难的。这里通常需要通过配对比较进行人工评估。基于配对比较的可伸缩、渐进和独特的基准测试系统是理想的。

当前的LLM基准测试系统中很少有满足所有这些要求的系统。像HELM和lm-evaluation-harness这样的经典LLM基准框架提供了研究标准任务的多指标测量。然而,它们并不很好地评估自由形式的问题,因为它们不是基于配对比较的。

LMSYS ORG是一个开发开放、可伸缩和易于访问的大型模型和系统的组织。他们的新工作提出了Chatbot Arena,这是一个众包LLM基准测试平台,具有匿名、随机对战的特点。与国际象棋和其他竞技游戏一样,Chatbot Arena采用了Elo评级系统。Elo评级系统在提供上述理想品质方面显示出潜力。

一周前,他们开放了与许多知名的开源LLM一起的竞技场,开始收集信息。可以在众包数据收集方法中看到LLM的一些真实应用示例。用户可以在竞技场中同时与两个匿名模型聊天,进行比较和对比。 

FastChat,这个多模型服务系统,在https://arena.lmsys.org上托管了竞技场。进入竞技场的人将面对与两个无名模型的对话。当用户从两个模型那里接收到评论后,他们可以继续对话或者投票选择自己喜欢的模型。投票结束后,模型的身份将被揭示。用户可以继续与同样的两个匿名模型对话,也可以开始与两个新模型的新战斗。系统记录了所有用户的活动。只有在分析中使用了模型名称的时候,投票才会被隐藏。自一个星期前竞技场上线以来,已经统计了大约7000个合法的匿名投票。

未来,他们希望实现改进的抽样算法、锦标赛流程和服务系统,以适应更多样的模型,并为各种任务提供细粒度的排名。

Leave a Reply

Your email address will not be published. Required fields are marked *