Press "Enter" to skip to content

该AI论⽂介绍了FELM:对⼤型语⾔模型的事实性评估进⾏基准测试

大型语言模型(LLMs)取得了令人瞩目的成功,在生成式人工智能中引发了范式转变。然而,与LLMs相关的挑战是它们生成不准确的信息或产生幻觉内容的倾向,这对它们的广泛适用性构成了重大障碍。即使是像ChatGPT这样的尖端LLMs也存在这个问题的脆弱性。

对大型语言模型(LLMs)生成的文本真实性的评估正在成为一个重要的研究领域,旨在提高LLM输出的可靠性并向用户提醒潜在错误。然而,负责评估真实性的评估人员也需要适当的评估工具来衡量进展并促进其领域的发展。不幸的是,这方面的研究仍相对未被探索,导致真实性评估员面临重大挑战。

为了弥补这一差距,本研究的作者引入了大型语言模型真实性评估的基准,称为FELM。上面的图片展示了事实性评估系统的示例 – 它可以突出LLMs生成的文本段落中的事实性错误,解释错误,并提供参考来证明决策的合理性。评估基准涉及收集LLMs生成的响应,并以细粒度的方式注释事实性标签。

与以往主要关注世界知识的真实性评估研究(例如来自维基百科的信息)不同,FELM将其重点放在跨多个领域的真实性评估上,涵盖了从广义知识到数学和推理相关内容的领域范围。为了理解和确定文本中可能出现错误的地方,他们逐个检查文本的不同部分。这有助于找到确切的错误位置。他们还给这些错误添加标签,说明是什么类型的错误,并提供链接到其他信息,证明或反驳文本中所说的内容。

然后,在他们的测试中,他们检查使用大型语言模型的不同计算机程序在文本中找到这些错误的能力。他们测试常规程序和一些通过额外工具改进以帮助其思考和更好地找出错误的程序。这些实验的结果显示,尽管检索机制可以帮助真实性评估,但当前的LLMs在准确检测事实性错误方面仍存在不足。

总的来说,这种方法不仅推进了我们对事实性评估的理解,还为不同计算方法在识别文本中的事实性错误方面的有效性提供了宝贵的见解,为增强语言模型及其应用的可靠性的持续努力做出了贡献。

Leave a Reply

Your email address will not be published. Required fields are marked *