2023年的机器取消学习：我们的现状和发展方向

机器遗忘范式和方法的总结，机器遗忘的动机，当前挑战和未来展望。

你是否曾经在夜晚辗转难眠，因为脑海中不断回放着那个你希望能够忘记的极度尴尬的记忆片段？将某些记忆保留在我们的脑海中可能是令人不愉快、适得其反甚至有害的。如果我们的人脑能够遗忘任何东西，那该多好。

事实证明，机器和机器学习模型面临着同样的挑战：遗忘适得其反或有害的记忆并不总是像简单点击“删除”那样顺利和容易。

那么，帮助机器遗忘的领域是什么？

机器遗忘简介

什么是机器遗忘，它与机器学习有何不同？我们为什么需要机器遗忘，它可以释放出什么价值？现有的机器遗忘方法和范式的直觉是什么？

机器遗忘是一个相对较新的领域，它本质上教会了一个经过训练的模型如何“遗忘”它所训练的输入数据集的某个子集，而不会对性能产生显著影响。有各种各样的动机：某些个人信息根据数据隐私政策的更新不再可用；某些数据被证明过时或不准确，并且对模型来说是适得其反的；或者模型无意中在传递偏见的数据上进行训练，我们希望删除特定的偏见诱导子集。

你可能会想：这听起来像是一个简单的任务，只需删除有问题的数据子集，并使用更新后的数据集重新训练模型。为什么要把它复杂化呢？

事实证明，许多模型，如ChatGPT等大型语言模型，通常需要大量的计算资源来进行训练。遗忘集通常只占总训练集的一小部分；因此，“从头重新训练”方法变得过于昂贵和重复，需要一种更好的算法，可以删除遗忘集而同时保持原始模型的性能。

应用和动机

机器遗忘的发展有哪些使用案例的动机？机器遗忘如何在这些领域和任务中独特地做出贡献？正在探索哪些潜在的未来应用，并且我们可以期待什么？

我们提到了一个观点，即由于计算资源的扩展，机器遗忘相对于完全重新训练更有优势，尤其在更大的数据集和真实应用中。

让我们来看看几个需要机器遗忘的重要应用领域：

公平和道德模型（偏见消除）：当在大规模的现实世界数据上进行训练时，有时模型会对数据固有的偏见产生影响。随着模型的扩展，算法有时会放大这种偏见。在某些情况下，模型偏见的后果可能尤为严重，例如在用于预测犯罪或从候选人池中招聘的模型中。一旦发现这些偏见，应立即消除，而机器遗忘提供了一种潜在的方法来做到这一点并减轻伤害。
数据更新（终身学习）：由于各种原因，模型的数据可能在数据集进行更正或更新后变得过时。通过遗忘和删除这些适得其反的数据点，模型可以适应这些变化并产生更准确的预测。这在动态学习模型（如终身学习）中特别有用；卸载过时或不正确的数据可以提高计算的准确性和效率。
数据隐私（被遗忘的权利）：这可能是机器遗忘最常与之相关的内容。在一个快速变化的数字世界中，监管数字实践的法律和法规不断更新。遗忘个人数据的某些属性有助于模型遵守诸如GDPR³之类的法规，以防止数据泄漏或匿名化问题。

算法和评估指标

机器遗忘中的主要算法范式是什么，它们是如何实施的？每种算法的优点和缺点是什么？已经有哪些指标用于评估机器遗忘的性能？

方法

从本质上讲，不完全重新训练的删除数据的逻辑是减少某些特征与输出之间的相关性。让我们看看一种主要技术，称为“数据污染”：

这是我们有意向模型中添加不准确的数据以“混淆”某个特征或属性的地方。以下是一个例子：在犯罪报告数据集上训练的模型观察到一种趋势，即50到60岁之间的人高度可能犯罪。结果，它在未来的犯罪预测中不公平地针对50到60岁的年龄组。为了减轻这种偏见，我们可以生成一个与50到60岁年龄组相匹配的其他年龄组的犯罪统计合成数据集，而不干扰其他特征。这削弱了定罪和50到60岁年龄组之间的相关性。

评估指标

由于这是一个相对较新的领域，每天都在提出许多评估标准来更好地评估机器遗忘的性能。以下是一些提出的评估指标，用于衡量机器遗忘方法的质量和效果：

遗忘率：衡量在遗忘过程之后，原先属于数据集的数据样本不再被识别的比例。
成员推理攻击：衡量对手能够正确推断一个数据样本是否属于模型的训练集的程度。这个指标在安全环境下尤为相关。

当前挑战

机器遗忘领域面临的主要挑战是什么？在特定的上下文或应用中出现了哪些挑战？

由于多种原因，机器遗忘可能是一项相当复杂的任务。事实上，在2023年7月，谷歌推出了一个公开竞赛，旨在统一和推进有效的机器遗忘方法。

缺乏标准化的评估。尽管一些出版物通过使用诸如CIFAR10和CIFAR100等知名数据集作为基准进行了统一评估指标的概念的探讨，但缺乏一种能够统一不同研究人员在该领域产生的结果的通用评估标准。事实上，这是谷歌最近机器遗忘挑战的目标之一，提供一个平台来“苹果对苹果”地比较不同方法。
易受对抗性攻击。研究发现，教会模型遗忘某些数据子集的模型可能会受到伪装攻击的困扰，因为遗忘过程中涉及了污染机制。

未来方向

这些当前的障碍为有趣的未来研究问题提供了潜在的方向：

如何训练模型以防御伪装的污染攻击？
如何利用计算资源来优化遗忘效率？
如何有效地清理和生成数据以克服训练数据的缺乏？
如何统一一组标准来评估遗忘算法以确保一致的评估？

结论

感谢您一直阅读到这里！在本文中，我们介绍了机器遗忘领域，包括其主要动机和应用领域、现有的方法和范式以及当前面临的挑战。

在本系列的后续文章中，我们将深入探讨现有遗忘算法的技术细节，并使用真实的统计和图像数据集进行Python实现。祝您编码愉快✌🏼！

参考文献

[1] Shaik, T., Tao, X., Xie, H., Li, L., Zhu, X., & Li, Q. (2023). Exploring the Landscape of Machine Unlearning: A Comprehensive Survey and Taxonomy. https://doi.org/10.48550/ARXIV.2305.06360

[2] Announcing the first Machine Unlearning Challenge. (2023, June 29). Ai.googleblog.com. https://ai.googleblog.com/2023/06/announcing-first-machine-unlearning.html

[3] 欧洲联盟基本权利机构. (2019). 《通用数据保护条例: 一年来的公民社会认识、机会和挑战》. 出版办公室. https://data.europa.eu/doi/10.2811/538633