LLM会取代知识图谱吗？元研究人员提出“头对尾”：一种衡量大型语言模型事实知识的新基准

LLM会取代知识图谱吗？元研究人员提出“头对尾”：一种衡量大型语言模型事实知识的新基准四海第1张

大型语言模型因其超强的能力而受到了很多赞赏。它们能够模仿人类并生成与人类类似的内容。预训练的大型语言模型（LLMs），例如ChatGPT和LLaMA，展示了惊人的理解材料和回答常见问题的能力。一些研究已经证明了它们吸纳知识和回答问题的能力。尽管LLMs取得了显著进展，但它们经常缺乏对特定领域细微差别的复杂理解，并容易产生错误信息，即幻觉。这突显了提高LLM准确性和减少幻觉回答发生率的重大障碍。

与LLMs相关的讨论主要集中在三个主要领域，即减少LLM生成的幻觉回答、提高LLMs的事实准确性以及推测LLMs是否最终可能取代知识图谱（KGs）作为以符号格式存储世界知识的手段。最近，来自Meta Reality Labs的研究人员采用了一种新方法来回答这些问题，试图确定LLMs实际拥有多少信息。

在回答LLMs在知识方面掌握程度的问题时，团队讨论了两个方面。首先，直接问一个LLM所包含的知识可能是困难的。即使知识已经并入模型的参数中，幻觉可能是由于缺乏知识或发生故障的生成模型引起的。研究建议使用正确性作为评估LLM内知识程度的指标。这涉及评估模型回答清晰准确的问题的能力，例如“篮球运动员迈克尔·乔丹出生在哪里？”LLM还被要求提供简洁的回答，并在自信度较低时使用“unsure”一词表示不确定。

其次，没有一个能够准确反映用户兴趣多样性或世界信息广度的便利基准。即使是最全面的知识图谱在知识方面也存在空白，特别是在涉及较不知名的事实时。主要LLMs或搜索引擎的查询日志并不公开。

为了解决所有的限制，团队引入了一个他们创建的基准，名为“Head-to-Tail”。该基准包括18,000个问题-回答（QA）对，根据其各自主题的受欢迎程度被划分为头部、躯干和尾部事实。这些类别反映了不同的公众熟悉程度。团队创建了一种自动化评估方法和一组能够反映LLM已经有效吸收的知识广度的度量标准，以评估LLMs所保持的知识。

研究的核心是评估对公众可用的14个LLMs。结果显示，现有的LLMs在完善其对事实数据的理解方面仍需要显著改进。这尤其适用于属于躯干到尾部区域并涉及较不知名组织的信息。

总之，这项研究使用最近提出的基准和尖端评估技术考察了LLMs的事实知识。该研究通过解决重要的研究问题和概述具体发现，对于关于大型语言模型在整合事实信息方面的可靠性和未来发展的持续讨论做出了重大贡献。