Press "Enter" to skip to content

面向大型语言模型的无偏评估

基准泄漏和数据污染如何破坏LLM的评估

作者提供的图片。(AI辅助)

“我们的新LLM在每个基准测试中都击败了GPT!”

随着LLM的炒作日益普及,在听到像这样大胆宣称的声音越来越多。每周都有新模型出现,目前每个人都在努力与GPT-4竞争,这仍然是最强大的LLM。

基准测试是评估大型语言模型进展的重要组成部分。

MMLUHellaSwag这样的基准测试是评估语言模型在推理和理解等技能上的标准。这些分数提供了进展的一瞥,新的最先进结果被吹捧为突破。LLM通常在零样本条件下进行评估,即在测试集上没有明确的训练,以评估它们的综合能力。

本文展示了如何轻易地操纵基准测试结果,并提出了保持评估完整性的建议。

基准测试的问题

通常,基准测试不反映在现实场景中的有用性。谷歌最新的模型Gemini Ultra在MMLU上得分90.04%。虽然这是一个令人印象深刻的分数,但仔细看评估方法,它是CoT@32(具有32个样本的思维链)。这意味着我们需要提示32次才能达到90%的准确性!大多数人在与聊天机器人互动时期望第一次尝试就能得到准确答案。

谷歌Gemini技术报告。[1]

不幸的是,这个问题只是LLM评估中的冰山一角。

在机器学习中,通常通过在训练中未使用的测试集上测试模型的性能来评估模型。这个过程通常可以对模型在新数据上的泛化能力进行公正的估计。

基准泄漏和数据污染是两个涉及令人担忧的问题的术语:当测试数据以某种方式泄漏到LLM的预训练数据中时,会导致性能夸大。这使得LLM之间的比较不公平…

Leave a Reply

Your email address will not be published. Required fields are marked *