Press "Enter" to skip to content

加州大学伯克利分校和中国上海交通大学的研究人员引入了“重新表述样本”的概念,以重新思考语言模型的基准和污染问题

大型语言模型的复杂性越来越高,评估也变得更加困难。社区在相对短的时间内产生了许多基准,但基准分数并不总是与实际性能相对应。一些证据表明,许多流行的基准测试可能使用了用于微调和预训练的有缺陷的数据集。

尽管普遍认为这是一个重要问题,但找出污染源一直很困难。N-gram叠加和嵌入相似性搜索都得到了广泛应用。字符串匹配在GPT-4、PaLM和Llama等最新创新中被广泛使用,用于N-gram叠加污染的检测。然而,其精确度略低。嵌入相似性搜索会查看先前训练模型(如BERT)的嵌入,以发现相关且可能被污染的样本。然而,在决定相似性水平时在召回率和精确度之间找到平衡可能很困难。此外,模型训练中有一种新兴趋势,即使用由LLM(例如GPT-4)生成的合成数据,使用字符串匹配来识别污染可能更加困难。

为了研究去污方法,美国加州大学伯克利分校和上海交通大学进行了一项新研究,引入了“重新表述样本”的概念,其语义与原始样本相同,但很难通过现有的污染测试来识别。LLM通过将测试样本翻译和改写成另一种语言生成重新表述样本。研究人员证明,如果将这种重新表述的示例用于训练,则产生的模型对过度拟合非常敏感,并且可以在测试基准上实现极高的性能。使用精细校准的13B Llama模型可以与GPT-4在所有基准测试中的性能匹敌,同时通过N-gram叠加作为污染而不被察觉。这种行为在广泛使用的基准测试如MMLU、GSM-8k和HumanEval中观察到。因此,识别重新表述样本的能力至关重要。

研究人员解释了传统去污技术的缺陷,并提出了一种新颖的基于LLM的方法。为了确定任何前k个样本是否与测试实例过于相似,他们首先应用嵌入相似性搜索来找到与所讨论的测试样本最相似的模型。结果证明,他们建议的LLM去污方法优于传统技术。他们在用于微调和预备训练的各种热门数据集上测试了他们的去污器。同时还发现,GPT-3.5的合成数据集CodeAlpaca中有相当一部分重新表述样本来自HumanEval(确切地说,占12.8%)。这暗示了在使用LLM生成的假数据进行训练时可能存在污染的潜在可能。

研究人员建议社区为使用公共基准测试来评估LLM建立更全面的去污流程。他们希望创建新的一次性测试,如Codeforces和Kaggle竞赛,以公平评估LLM并克服这些基本问题。

Leave a Reply

Your email address will not be published. Required fields are marked *