基于Transformer的LLM如何从其参数中提取知识

基于Transformer的LLM如何从其参数中提取知识四海第1张

近年来，基于Transformer的大型语言模型（LLMs）因其捕捉和存储事实知识的能力而变得非常流行。然而，这些模型在推理过程中如何提取事实关联的方式仍然相对未被充分探索。谷歌DeepMind、特拉维夫大学和谷歌研究的研究人员最近进行了一项研究，旨在研究Transformer-based LLMs存储和提取事实关联的内部机制。

该研究提出了一种信息流方法，以调查模型如何预测正确属性以及内部表示如何在层之间演化以生成输出。具体而言，研究人员关注了仅有解码器的LLMs，并确定了与关系和主题位置相关的关键计算点。他们通过使用“去除”策略，在特定层次阻止最后一个位置与其他位置进行关注，并观察推理过程中的影响。

为了进一步确定属性提取发生的位置，研究人员分析了在这些关键点和前面的表示构建过程中传播的信息。他们通过对词汇表、模型的多头自注意力（MHSA）和多层感知机（MLP）子层和投影进行额外干预来实现这一目标。

研究人员确定了一种基于主题丰富过程和属性提取操作的属性提取内部机制。具体而言，在模型的早期层中，关于主题的信息在最后一个主题令牌中得到丰富，而关系传递给最后一个令牌。最后，最后一个令牌使用关系通过注意力头参数从主题表示中提取相应的属性。

这些发现揭示了LLMs内部存储和提取事实关联的机制。研究人员认为，这些发现可能为知识定位和模型编辑开辟新的研究方向。例如，该研究的方法可以用于确定LLMs获取和存储有偏见信息的内部机制，并开发缓解此类偏见的方法。

总的来说，这项研究强调了研究Transformer-based LLMs存储和提取事实关联的内部机制的重要性。通过了解这些机制，研究人员可以开发更有效的方法来改善模型性能并减少偏见。此外，该研究的方法可以应用于自然语言处理的其他领域，如情感分析和语言翻译，以更好地了解这些模型的内部运作方式。