Press "Enter" to skip to content

《哈利·波特》是谁?微软研究所关于在LLMs中消除概念的微调方法内部记录

可以通过微调让LLMs遗忘已有知识吗?

使用Ideogram创建

最近我开始了一份以人工智能为重点的教育通讯,已经有超过16万订阅者了。TheSequence这是一份没有废话的(意思是没有炒作,没有新闻等)以机器学习为导向的通讯,只需5分钟阅读时间。目标是让您及时了解机器学习项目、研究论文和概念的最新动态。请通过以下订阅链接尝试一下:

TheSequence | Jesus Rodriguez | Substack

机器学习、人工智能和数据领域的最佳资讯源…

thesequence.substack.com

大型语言模型(LLMs)通常通过大量未标记的数据进行训练,这通常导致其获取了丰富多样的知识。LLMs的预训练数据集通常包含受版权保护的材料,这对开发人员、用户和原始内容创作者都引发了法律和伦理上的关注。经常需要从LLMs中删除特定知识以使其适应特定领域。尽管LLMs的学习能力令人印象深刻,但是对于特定概念的遗忘仍然是一个非常初级的探索领域。尽管微调方法对于引入新概念确实有效,但它们是否可以用于遗忘特定知识呢?

在今年最有趣的论文之一中,微软研究团队探索了一种针对LLMs的遗忘技术。这个挑战无疑是让Llama-7B忘记任何有关哈利·波特的知识。

LLMs中的遗忘挑战

最近几个月来,人们对用于训练LLMs的数据进行了更加严格的审查。重点关注的问题包括版权侵权、隐私问题、内容偏见、虚假数据,甚至是有毒或有害信息的存在。显然,某些训练数据具有固有的问题。但是当人们意识到某些数据必须从训练好的LLMs中删除时会发生什么呢?

传统上,人工智能社区相对容易对LLMs进行微调以纳入新信息。然而,让这些机器遗忘之前学到的数据是一个非常具有挑战性的任务。打个比方,这就像试图从一个完全烘烤好的蛋糕中去除特定配料,这是一项几乎无法超越的任务。尽管微调可以引入新的风味,但删除特定成分则面临巨大的难题。

增加复杂性的是重新训练LLMs的巨大成本。训练这些庞大模型的过程需要数千万甚至更多的投资。鉴于这些巨大的障碍,遗忘仍然是人工智能领域中最复杂的谜团之一。在没有关于这个问题的具体研究的情况下,人工智能社区对其可行性产生了怀疑。

方法

微软研究团队针对生成式语言模型的遗忘方法包括三个核心组成部分:

1. 强化建模中的标记识别:研究人员构建了一个专门的模型,旨在加强对需要遗忘的内容的知识,通过进一步微调目标数据(如哈利·波特的书籍)。该过程识别出概率明显增加的标记,表示应在生成过程中避免含有这些与内容相关的标记。

2. 表达替换:为了实现遗忘,从目标数据中选择特定短语,并将其替换为通用等价物。然后,模型预测这些标记的替代标签,模拟一个尚未学习特定目标内容的版本。

3. 微调:借助这些替代标签,模型进行微调。当模型遇到与目标数据相关的上下文时,它会“忘记”原始内容。

在这种情况下,微软研究团队解决了遗忘生成式语言模型训练数据子集的挑战。假设模型已经在数据集X上进行了训练,并且需要从中遗忘一个子集Y(称为遗忘目标)。目标是近似训练模型在数据集X \ Y上的效果,因为由于时间和成本的原因完全在X \ Y上重新训练将是不切实际的。

对于取消文本的一种最初的想法可能是在训练模型时颠倒损失函数。然而,实证研究表明,在这个环境中,这种方法并没有带来有希望的结果。这种局限性源于模型成功预测某些标记与《哈利·波特》小说的知识无关,而是反映了它的一般语言理解能力。例如,在句子“哈利·波特走到他跟前说:‘你好。我的名字是’”中预测“哈利”不会导致对书籍知识的遗忘,而反而会阻碍模型理解短语“我的名字是”的能力。

另一个挑战出现在基准模型自信地预测像“罗恩”或“赫敏”这样的标记时,比如在“哈利·波特的两个最好的朋友是”这样的句子中。应用简单的逆损失需要大量梯度下降步骤来改变预测结果。此外,最有可能的标记将仅仅转换为与《哈利·波特》小说相关的替代者。

相反,目标是为模型提供与《哈利·波特》无关但在上下文中合适的标记替代品。实质上,对于文本中的每个标记,问题变成了:对于这个句子中的下一个标记,一个未接触过《哈利·波特》系列的模型会预测出什么?这被称为通用预测,微软的方法采用了增强引导和锚定术语等技术来获取这些通用预测。

结果

微软研究进行了艰巨的努力,最初几乎被认为是不可能的:将Llama2–7b模型中关于哈利·波特的迷人世界从内存中抹去,这个模型最初由Meta进行训练。多个消息来源表明,该模型的训练涵盖了“books3”数据集,这是一个包含了具有标志性意义的书籍以及其他一大堆受版权保护的文学作品(包括本研究的贡献者所著作的作品)的庞大资源库。

为了说明该模型具有的出色知识深度,只需要向它提供一个看似通用的提示,比如“哈利回到学校那个秋天”,观察它如何编织一个场景详细的叙述,设置在J.K.罗琳的魔法世界中。

Image Credit: Microsoft Research

然而,通过应用微软研究提出的技术,模型的响应发生了深刻的转变。让我们通过比较原始的Llama2–7b模型生成的完成结果与我们精细调整的迭代版本生成的结果来探究一些示例:

Image Credit: Microsoft Research

微软研究的调查得出关键观点:取消学习,虽然面临挑战,但证明是可行的,如在涉及Llama2–7b模型的实验证明的有利结果。然而,这一成就值得谨慎看待。他们当前的评估方法,依赖于对模型给出的提示和对其响应的后续分析,在特定的情境下证明是有效的。然而,它可能忽视了提取保留信息的更复杂、对抗性的方法。可以想象,非常规的技术,如深入研究标记概率分布,可能无意中揭示了模型对未取消学习内容的隐蔽熟悉。

总之,虽然他们的技术标志着一个有希望的初始步骤,但其适应性到不同的内容类别仍需经过深入的考察。所提出的方法提供了一个基础框架,但需要进一步的研究来完善和扩展,特别是在大型语言模型下更广泛的取消学习任务的背景中。

Leave a Reply

Your email address will not be published. Required fields are marked *