遇见FACTOOL：一种用于检测大型语言模型（例如ChatGPT）生成的文本中事实错误的任务和领域无关框架

遇见FACTOOL：一种用于检测大型语言模型（例如ChatGPT）生成的文本中事实错误的任务和领域无关框架四海第1张

GPT-4是生成式人工智能（AI）技术的一个例子，它将自然语言处理中的多个任务结合成一个单一的序列生成问题。这种统一的架构具有卓越的效率和交互性，使用户能够使用自然语言界面执行各种活动（包括代码生成、数学问题解决和科学出版物的创建）。然而，这种生成式范式也带来了一些特定的困难。由于大型语言模型（LLMs）的限制，自动生成的文本经常显示错误或偏离事实。

LLMs往往会创建出令人信服的信息，但可能需要在事实上更准确或精确。这种限制限制了生成式AI在医疗、金融和法律等高风险行业的使用。因此，必须通过系统地识别这些错误来改进所创建材料的实用性和可靠性。例如，用于质量保证的检索增强验证模型、用于文本摘要的幻觉检测模型以及用于代码的执行评估模型等都是当前文献中关注的检测和减轻机器学习模型产生的事实错误的单一特定任务的例子。

鉴于LLMs处理的活动和领域的非凡灵活性，这些方法已经在各自的领域取得了成功。然而，拥有一个更全面的事实性检测和验证框架同样重要。此外，事实性检测的问题在当前文献中通常被概括为：（i）在给定一个主张的情况下评估一个主张是否事实准确，或者（ii）检测生成的主张是否得到给定证据的支持。

在用户与生成模型（如ChatGPT）进行交互时，他们经常需要评估长篇生成的事实准确性，而不是明确的主张和证据，因此需要更好地匹配这个任务定义。在这项研究中，来自上海交通大学、卡内基梅隆大学、香港城市大学、纽约大学、Meta AI、香港科技大学和上海人工智能实验室的研究人员提供了FACTOOL，这是一个任务和领域无关的框架，用于查找LLM生成的文档中的事实错误。在图1中，他们将“工具使用”和“事实性检测”的概念联系起来，并解释了他们的方法。

遇见FACTOOL：一种用于检测大型语言模型（例如ChatGPT）生成的文本中事实错误的任务和领域无关框架四海第4张 — **图1：**带有工具增强的事实性检测框架。

为了获得所创建信息的事实性证据，FACTOOL专门使用多种资源，如Google搜索、Google学术、代码解释器、Python甚至LLMs。此外，他们的方法利用LLMs的批判性思维能力，根据可用数据评估内容的事实性。他们创建了一个基准，并对四个任务进行了实验：

基于知识的质量保证
代码生成
解决数学问题
撰写科学文献综述

他们解决了事实性识别的工作，并扩展了它以实现对最新生成式AI模型的更全面审计。根据他们对使用FACTOOL的现代聊天机器人的事实性分析，GPT-4在几乎所有情况下都具有最高的事实性。基于知识的质量保证测试显示，经过精心调整的聊天机器人（Vicuna-13B）具有可观的事实性。然而，它们在撰写科学文献综述和解答算术问题等更困难的任务上还存在困难。