来自微软研究院和乔治亚理工学院的研究人员揭示语言模型中幻觉的统计边界

最近，语言模型中出现了一个关键问题，即语言模型（LMs）提供错误信息的高比率，包括对不存在的文章标题的引用。《韦氏词典》将幻觉定义为“由人工智能算法生成的合理但错误或误导性响应”。有一次，提交了他们认为准确无误的法律研究文件的律师面临5000美元的罚款。在医学领域，患者的幻觉可能是致命的，医生担心被控以疏忽罪。此外，媒体广泛报道了幻觉问题，美国总统最近发布了《行政命令》，要求包括针对生成式人工智能系统产生的欺骗性结果的保护在内的措施。

在这项工作中，来自微软研究院和乔治亚理工学院的研究人员提出了校准事实预测器的学习机器（LMs）的幻觉率的统计下界。这揭示了幻觉的特性。这并不意味着幻觉是不可避免的。正如研究小组将讨论的那样，这与实践者越来越多地使用“预训练”程序和“后训练”程序相补充的趋势更加一致，这可以降低幻觉率和校准。LM只是一种对标记序列（即单词或其他字符序列）的概率分布D。任何一个预测每个字符串的LM（这是LM的典型特征）都将必然以正概率产生幻觉。然而，如果此概率较低，则幻觉将不常见。因此，测量幻觉的频率是必要的。

完整序列上的对数概率或给定前面的标记的条件对数概率可以用于等同地表示任何分布D：log D(t1… tm) = Pm i=1 log D(ti | t1 … ti−1)。这看似微不足道的数学等价性有重要的含义。虽然预测和生成有不同的要求，但任何LM都可以用来产生文本或预测自然出现的文本中下一个标记，条件是考虑到前面的标记。例如，考虑以下句子：Alexa Wilkins 上周二去Salumeria吃午饭，因为评论说金枪鱼三明治很棒。一种预测性语言模型可能会建议这样的句子以减少打字。预测性语言模型可能会将三明治作为一个单词进行预测，作为紧接在金枪鱼一词之后的输入，同时还可能出现其他可能的单词，比如沙拉。

然而，如果生成式LM随机制造许多这类句子，那就会是错误的。根据本文的说法，即使在理想条件下，具有强大预测文本能力的语言模型也会产生幻觉。值得注意的是，在现今的 typic 的预训练初始步骤中，生成式LM是为了预测性文本表现而量身定制的。此外，它为幻觉率提供了一个下限，这可能揭示了不同类型事实应该产生幻觉的各种速率。上述例子和可能的参考资料（被研究小组称为5W=谁-吃了什么-何时-哪里-为什么事实）共同拥有的特点是它们都是任意的，即这些事实大部分无法依据规则进行系统认证；也就是说，大部分这些事实无法验证，因为它们不包含在训练数据中。

与可以经过系统认证的事实相对。即使在具有多个理想条件的简化情况下，研究小组也能估算出LM应该产生的幻觉数量。研究小组更喜欢简单而非普遍性，因为他们的下界是统计的，他们的目标是确定LM产生幻觉的潜在源头。他们提出了一种校准到生成模型的自然扩展。他们的想法与LM中先前的校准应用不同，之前的校准是基于标记级别的。由于每个事实可以用各种方式使用自然语言来描述，当评估原始标记概率时，校准标记概率只有在评估原始标记概率时才有用。相反，他们的语义级校准是考虑到文本中信息（事实或幻觉）的位分布。如果LM在概率a ≈ z的情况下，对应于该概率z ∈ [0, 1]中的任何给定概率z的信息在自然出现的语言的一部分中平均出现，则该LM被认为是校准的（最好是从训练数据收集的分布）。

本文旨在解释此现象，通过展示即使在理想世界中，训练数据完全准确无误，事实和幻觉不会混淆，每个文件包含的最多只有一个事实，甚至没有任何提示会鼓励产生幻觉，预训练的语言模型（LMs）为了预测准确性而产生幻觉。此外，他们的假设阐明了为什么现代LMs比之前的LMs（如三元模型）产生更多幻觉，尽管它们在相似的数据集和目标上进行训练。单事实率可能显示经过校准的LMs必须为各种类型的事实产生自欺行为的比率。

当具有高单一事实率（即在训练数据中只出现一次的事件）的事实发生时，就会预测到幻觉。有趣的是，这在提到书籍或文章的引用数量是罕见的，这是一种问题性幻觉，正在研究中。因此，检查LM在训练过程中遇到的大量事实，包括引用和其他内容，可能会导致其他问题，例如模型容量。此外，通过修改预训练流程而无需使用后训练，可能可以纠正产生幻觉的引用，但这对于其他类型的任意事实，例如在他们的“五W”示例中的事实，并不起作用，其中单一事实是频繁出现的。