面向大型语言模型的无偏评估

基准泄漏和数据污染如何破坏LLM的评估

“我们的新LLM在每个基准测试中都击败了GPT！”

随着LLM的炒作日益普及，在听到像这样大胆宣称的声音越来越多。每周都有新模型出现，目前每个人都在努力与GPT-4竞争，这仍然是最强大的LLM。

基准测试是评估大型语言模型进展的重要组成部分。

像MMLU和HellaSwag这样的基准测试是评估语言模型在推理和理解等技能上的标准。这些分数提供了进展的一瞥，新的最先进结果被吹捧为突破。LLM通常在零样本条件下进行评估，即在测试集上没有明确的训练，以评估它们的综合能力。

本文展示了如何轻易地操纵基准测试结果，并提出了保持评估完整性的建议。

基准测试的问题

通常，基准测试不反映在现实场景中的有用性。谷歌最新的模型Gemini Ultra在MMLU上得分90.04%。虽然这是一个令人印象深刻的分数，但仔细看评估方法，它是CoT@32（具有32个样本的思维链）。这意味着我们需要提示32次才能达到90%的准确性！大多数人在与聊天机器人互动时期望第一次尝试就能得到准确答案。

不幸的是，这个问题只是LLM评估中的冰山一角。

在机器学习中，通常通过在训练中未使用的测试集上测试模型的性能来评估模型。这个过程通常可以对模型在新数据上的泛化能力进行公正的估计。

基准泄漏和数据污染是两个涉及令人担忧的问题的术语：当测试数据以某种方式泄漏到LLM的预训练数据中时，会导致性能夸大。这使得LLM之间的比较不公平…