超越事实或虚构：评估像GPT-4这样的大型语言模型的先进事实核查能力

苏黎世大学的研究人员关注大型语言模型（LLMs）在自主事实检查中的作用，评估它们在提出查询、检索上下文数据和做出决策时提供解释和引用的能力。结果表明，尤其是GPT-4，LLMs在上下文信息方面表现良好，但准确性因查询语言和论断真实性而异。虽然它在事实检查方面显示出了希望，但准确性上的不一致强调了需要进一步研究以更好地了解它们的能力和限制。

自动化事实检查研究在过去十年中以不同的方法和共享任务得到发展。研究人员提出了诸如主张检测和证据提取等组件，通常依赖于大型语言模型和维基百科等来源。然而，确保可解释性仍然具有挑战性，因为对事实检查裁决的明确解释对新闻工作至关重要。

随着网络上虚假信息的增加，事实检查的重要性也越来越大。虚假信息在2016年美国总统选举和英国脱欧公投等重大事件期间引起了激增。传统的人工事实检查必须改进以应对大量在线信息，这需要自动化的解决方案。像GPT-4这样的大型语言模型已经成为验证信息的重要工具。解释性在新闻应用中使用这些模型时面临挑战。

本研究评估了LLMs在事实检查中的使用情况，重点关注GPT-3.5和GPT-4。模型在两种条件下进行评估：一种是没有外部信息的情况，一种是有上下文信息的情况。研究人员提出了一种使用ReAct框架创建迭代代理的原始方法，用于自动化事实检查。该代理在决定是否结束搜索或继续查询时自主决策，旨在平衡准确性和效率，并用引用的推理证明其裁决理由。

提出的方法评估了LLMs用于自主事实检查的效果，结果显示GPT-4在PolitiFact数据集上的表现优于GPT-3.5。上下文信息显著提高了LLM的性能。然而，考虑到准确性在半真和大部分错误等细微类别中的变化，需要谨慎。该研究呼吁进一步研究，以提升对LLMs在事实检查任务中表现出色或失误的理解。

GPT-4在事实检查方面优于GPT-3.5，特别是在引入上下文信息后。然而，准确性因查询语言和论断真实性等因素而异，尤其在细微类别中。它还强调了在使用LLMs时告知人类监督的重要性，因为即使有10%的错误率也可能在今天的信息环境中产生严重后果，突出了人工事实检查员不可替代的角色。

进一步的研究对于全面了解LLM代理在事实检查中的优势和劣势条件至关重要。探索解释LLMs准确检测虚假陈述相对于真实陈述的因素，可以为提高准确性提供有价值的见解。