大型语言模型(LLMs)是强大的模型,能够处理大量的文本数据。它们是在一个庞大的文本语料库上进行训练的,这些文本包括几百GB甚至TB级别的数据。鉴于这些数据的规模,发现训练数据是否包含有问题的文本,如受版权保护的材料或可识别个人信息,变得至关重要。此外,由于训练语料库的增长速度,这些LLMs的开发者现在更不愿意披露他们的数据完整组成。
在这篇论文中,华盛顿大学和普林斯顿大学的一组研究人员研究了上述问题。给定一段文本和对LLM的黑盒访问权限,研究人员试图确定模型是否是在提供的文本上进行训练的。他们引入了一个名为WIKIMIA的基准,该基准包括预训练和非预训练数据以支持金标准。他们还引入了一种新的检测方法,称为MIN-K% PROB,在LLM下识别具有低概率的异常词。
拥有可靠的基准对于解决识别问题训练文本的挑战至关重要。WIKIMIA是一个动态基准,可自动评估任何新发布的预训练LLMs上的检测方法。MIN-K% PROB方法基于假设,即看不见的文本更有可能包含LLM不熟悉的词汇,而MIN-K% PROB计算了这些异常词的平均概率。
MIN-K% PROB的工作方式如下。假设我们有一个文本X,并且我们需要确定LLM是否是在X上进行训练的。该方法使用LLM计算给定文本中每个标记的概率。然后,它选择具有最小概率的k%标记,并计算它们的平均对数似然。同样的值越大,意味着文本X很可能是预训练数据中的一部分。
研究人员应用了三个真实场景的方法-版权书籍检测、受污染的下游示例检测和机器遗忘的隐私审计。他们从100本受版权保护的书籍中选取了一组包含10,000个文本片段的测试集,发现约90%的文本被检测到污染率超过50%。根据他们的发现,特别是GPT-3模型的文本中包含了来自20本受版权保护的书籍的内容。
为了从LLMs中去除个人信息和受版权保护的数据,我们使用了机器遗忘的方法。研究人员使用了MIN-K% PROB方法,并发现即使在去除受版权保护的书籍后,LLMs仍然能够生成相似的受版权保护内容。
总而言之,MIN-K% PROB是一种新方法,用于确定LLM是否根据受版权保护的和个人数据进行训练。研究人员通过真实案例研究验证了他们的方法的有效性,并找到了强烈的证据表明GPT-3模型可能在受版权保护的书籍上进行了训练。他们发现这种方法是一种始终有效的解决方案,可以检测到有问题的训练文本,并对于提高模型的透明度和责任感迈出了重要的一步。