

近期,大型语言模型(LLM)因其出色的遵循指令能力和处理广泛的开放式场景的能力而受到了广泛关注。通过指令微调,研究人员提供了许多与人类偏好相一致的技术,这些技术基于开源LLM,如FlanT5、OPT、LLaMA和Pythia等。这些对齐的LLM显示出对人类命令的理解能力提高,并产生更合乎逻辑的回复。然而,当前的基准和传统的测量方法需要充分评估LLM在开放式场景中的能力。
因此,需要一种新的基准方法,可以全面评估LLM在开放式活动中的能力。同时,正在进行研究来探索不同的方法来确定LLM的性能。Arena格式技术利用众包平台获取匿名LLM竞赛结果。人类评估可靠,但也需要花费金钱和大量的努力。一些方法使用GPT-4作为仲裁者。然而,这些方法需要API模型转换的可变性和可能的数据泄露,可能会危及仲裁者的重复性。PandaLM致力于改进用于回答评估的开源LLM。
图1(a):JudgeLM的数据生成流程。首先收集105K个种子任务作为问题。然后从11个LLM中提取答案,并随机选择两个答案。最后,输入任务、样本答案对和(如有需要)GPT-4的回复。这样可以得到评分和对仲裁者的详细解释。
然而,这种精细模型在司法岗位上的实用性受到模型大小、训练数据质量和内在LLM偏见的限制。北京市人工智能研究院和华中科技大学的研究人员建议在这项研究中使用优化的开源LLM来评估LLM,这些LLM作为可扩展的仲裁者(JudgeLM)与指导仲裁者达成足够好的一致性。他们的技术将用于训练和评估仲裁者模型的高质量数据集与作为可扩展的仲裁者在开放式任务中担任评估者。他们修改开源LLM以在他们的框架内作为仲裁者,并检查它们在模型大小(7B至33B)和训练数据量(3.5K至100K)方面的扩展能力。
图1(b):JudgeLM的不同特征和微调示例。为了改善LLM作为可扩展仲裁者的性能,他们使用生成的仲裁者样本。他们还建议使用参考答案删除、参考支持和交换增强来微调LLM作为仲裁者,以分别克服格式、知识和位置偏见。
如图1a所示,他们策划的数据集包括105K个种子问题、LLM答案对和教员仲裁者GPT-4的判断。注意,对于每个种子挑战,学生们提出了两个决策——一个带有参考答案,一个没有参考答案。这个数据集的划分是将100K个种子问题用于训练(比PandaLM大2倍),并将剩下的问题用于验证(比PandaLM大29倍)。当LLM作为仲裁者时,位置偏见(偏爱特定情况下的回答)、知识偏见(过度依赖预先训练的信息)和格式偏见(仅在特定提示形式下的最佳性能)等偏见总会出现。
他们提供了处理它们的方法。此外,如图1b所示,他们的JudgeLM系统具有扩展功能,如多轮对话、对单个回复评分以及评判多个答案,除了多模型。相比竞技场格式的方法,他们的解决方案更快捷且经济实惠。例如,JudgeLM-7B是一种模型,可以在3分钟内评估5000对回应,并且只需8个A100 GPU。JudgeLM的隐私保护和可重复性比闭源LLM评委更多。他们的方法研究了LLM微调的扩展能力和偏见,与并发的开源LLM评委相比。
此外,他们提供的数据集是最全面和出色的,将极大地帮助未来的评估模型分析研究。以下简要描述了他们的主要贡献:
• 他们提出了JudgeLM,一种可扩展的语言模型评委,用于评估开放式场景下的LLM。
• 他们引入了一个高质量、大规模的数据集,用于评估模型,丰富了不同的种子任务、LLM生成的答案以及来自GPT-4的详细判断,为未来评估LLM的研究奠定了基础。它超过了人对人的一致性,达到90%以上。此外,它的JudgeLM具有处理长时间作业的广泛能力。
• 他们研究了LLM中存在的偏见、评委微调,并提出了几种解决方案。他们的技术极大地提高了模型在各种场景下的一致性,提高了JudgeLM的可靠性和适应性。