学会遗忘机器’ (Xuéhuì yíwàng jīqì)

数据驱动的生成语言模型机器遗忘方法

在今天的技术领域中，很难找到一个没听说过机器学习的人。过去十年，这个研究领域非常流行，即使那些不在技术行业的人现在也对人工智能（AI）、神经网络（NNs）和机器学习（ML）等术语有所了解。

然而，当涉及到机器遗忘时，法律行业似乎比技术社区更关注。在快节奏的IT世界中，大型语言模型（LLMs）的近期爆发，即使只有1-2年，也使得AI开发中出现了数百个未解决的伦理和法律问题。小说家们起诉 OpenAI 不经过授权使用他们的文本来训练 GPT 模型。Twitter 上充斥着这方面的批评，艺术家们认为他们的作品违反了版权法。满足“被遗忘权”变得极具挑战性。

与AI对齐类似，机器遗忘似乎是一个被忽视的领域，因为目前开放源代码的解决方案有限。我认为应该鼓励和推广机器遗忘的探索，尤其考虑到当前围绕AI使用的法律和伦理规范不完善，且严重缺乏数据保护机制。在本文中，我想提出一些关于生成语言模型的应用遗忘技术的实际改进。

机器遗忘

“机器遗忘”或“机器遗忘”一词的含义与其听上去的意思相符：它包括设计用于从机器学习模型的“知识存储”中删除请求信息的技术。然而，在实际方法上以实现高效的遗忘时间、计算资源和模型性能方面，这并不直观。明显的解决方案是使用初始数据集重新训练模型，排除“遗忘集” – 但这对于深度神经网络的遗忘来说是一个极其不切实际的方法。

机器遗忘领域的核心研究发现被简洁地总结在《机器遗忘调查》中。另一篇涵盖基础知识及易于理解解释的文章是《机器遗忘：遗忘的责任》。虽然我个人推荐这些资源，但在这个主题上你可以找到许多其他优质的研究材料。然而，在实际应用方面，还有很多工作要做。

一个有望将这个领域从理论探索转变为实际应用的有希望的举措是NeurIPS 2023机器遗忘挑战。在这里，参与者将竞争创建用于ResNet18卷积神经网络的遗忘算法。

生成式语言模型的机器去学习

考虑到广泛普及和推广生成式语言模型给绝大部分互联网用户的情况，迫切需要一种去学习机制。最初的成功技术之一不久前在开源上发布，你可以在Ronen Eldan和Mark Russinovich的“谁是哈利波特？LLMs中的近似去学习”中找到详细信息。

作者们使用了数据增强的方法，在今年夏天Meta发布的Llama 2 7b聊天模型上进行了机器去学习。选择的去学习目标，也被称为“忘记集”，是哈利波特系列（这些麻瓜真是聪明！），因为可能侵犯版权法这一事实，它是机器去学习的一个完美例子。他们展示了只需一个GPU小时的微调，得到的模型就无法回忆起大部分与哈利波特相关的内容，而其在常见基准测试中的性能几乎没有受到影响。

方法概述

该方法的主要目标是使Llama 2 7b忘记一个定义好的忘记集（“哈利”<和“赫敏”是朋友>）之间的联系，通过给模型提供合理的通用替代品（“哈利”<和“萨莉”是朋友>）。为了将这些替代品作为微调数据集的目标标签提供，应该在生成目标时对“待遗忘领域”的个性化术语进行高度惩罚。这种惩罚可以通过将原始输入（哈利波特图书）上的强化模型产生的逻辑值（使用方程式（1））与于原始输入的通用翻译上的基准模型产生的逻辑值进行组合来实现。

来自“谁是哈利波特？LLMs中的方程式（1）” — 来自“谁是哈利波特？LLMs中的近似去学习”的方程式（1）

强化模型是在哈利波特小说上进行了额外微调的Llama 2 7b。而基准模型则是未微调的Llama 2 7b。为了将基准模型的输出分布与哈利波特主题脱离开来，作者将原始输入中的个性化术语替换成通用术语，以便模型根据与哈利波特系列无关的上下文生成下一个单词。为了自动化这种替换，作者引入了一个锚定术语的字典，将特定于“哈利波特”的术语映射为通用翻译。该字典是由GPT-4完全收集。

来自“谁是哈利波特？LLMs中的{‘锚定术语’：‘通用翻译’}” — 来自“谁是哈利波特？LLMs中的近似去学习”的{‘锚定术语’：‘通用翻译’}

由此得到的微调数据集由哈利波特图书中的分词文本块组成，与方程式（1）中的v_generic的最大输入对应的标记，即生成的目标标签。

“Who’s Harry Potter? Approximate Unlearning in LLMs”中的微调数据集片段

总结起来，作者描述了遗忘过程中的四个步骤：

“Who’s Harry Potter? Approximate Unlearning in LLMs”中的机器遗忘算法

利用这种方法：主要挑战

数据增强方法的结果令人鼓舞，鼓励在类似任务中进一步应用。然而，作者留下了改进几个应用阶段的余地。

依赖GPT-4现有的知识：该算法在一定程度上依赖于GPT-4对哈利波特系列的先前理解，以生成通用翻译。虽然预期该模型对哈利波特领域拥有广泛的知识，但系列的粉丝重新评估可能提供宝贵的见解。

特殊术语的挑战：惩罚与系列相关的所有唯一术语带来一个问题。例如，用一个常见的名字比如‘John’替换每一个‘Harry’的出现会破坏模型对自然语言的理解，导致出现“哈利走近他说：‘嗨，我叫约翰’”这样的句子。为了解决这个问题，作者采用以下策略：

排除锚定术语的重复出现超过初始出现次数对损失函数的贡献。
降低先前出现过的术语的翻译连接的可能性。

然而，这种策略也会影响模型对一般语言的理解。一个合理的替代方案是在微调数据集中使用“哈利走近他说：‘嗨，我叫哈罗德’”。

评估技术：团队使用GPT-4进行初始评估，包括300个哈利波特提示完成以及对完成结果的进一步分析。然而，他们承认其准确性有限，选择在最终的训练中通过手动检查结果进行更彻底的验证。作者没有提供如何设置这样的手动检查的见解。

克服挑战

解决这些关键挑战的一种更有效的方法是将人类洞察力和大型语言模型（LLMs）相结合的混合方法。

为了充分利用人类直觉和大型语言模型的集体优势，我设计了三个众包项目界面，促进使用LLMs和群体进行协作标注。为人工标注而设计的每个界面都针对上述的一种挑战。

依赖GPT-4现有的知识：

使用命名实体识别（NER）纠正GPT-4对锚定术语识别的选择。作为输入，提供文本和GPT-4对术语的选择（您可以要求模型直接返回文本中的位置），并指示群体纠正和补充所选实体。

特殊术语的挑战：

在基准模型的帮助下，以原始输入的通用翻译为基准模型完成的补全上检查语言正确性提示。所有基准模型对答案不确定的示例（输出令牌的概率低于您根据经验选择的某个阈值）都应发送到一个众包项目，其界面如下图所示。

评估技术：

可以设计 GPT-4 的评估手动检查方式如上图所示。

结论

作者强调，与哈利·波特的虚构世界不同，非虚构领域可能没有同样丰富的唯一术语，这可能使以锚点术语为基础的数据增强方法不适用。然而，如果本文中概述的数据增强技术适用于您的项目，请考虑整合建议的改进并进一步引入您自己的优化措施。我们共同推动机器遗忘的领域发展！