Press "Enter" to skip to content

“认识高级推理基准(ARB):一个评估大型语言模型的新基准”

“认识高级推理基准(ARB):一个评估大型语言模型的新基准” 四海 第1张“认识高级推理基准(ARB):一个评估大型语言模型的新基准” 四海 第2张

自然语言处理在最近几年取得了显著进展,特别是创建了复杂的语言模型。几乎所有的自然语言任务,包括翻译和推理,在像GPT 3.5、GPT 4、BERT、PaLM等著名模型的性能方面都取得了显著进步。一些基准用于评估和评估人工智能领域中这些发展。基准基本上是一组标准化任务的集合,用于测试语言模型的能力。

考虑到GLUE和SuperGLUE基准,它们是最早的几个语言理解基准,像BERT和GPT-2这样的模型更具挑战性,因为语言模型一直在击败这些基准,引发了模型开发和基准难度之间的竞争。通过使模型变得更大并在更大的数据集上进行训练,可以提高性能。LLMs在各种基准测试中展示了出色的表现,评估了它们的知识和数量推理能力,但是当这些模型在当前标准上得分更高时,很明显这些基准已不再适用于评估模型的能力。

为了解决这些限制,一组研究人员提出了一个新的独特基准,称为ARB(高级推理基准)。ARB旨在传达各种学科领域(如数学、物理、生物学、化学和法律)中更困难的问题。与早期的基准相比,ARB侧重于复杂的推理问题,以提高LLM的性能。该团队还引入了一组数学和物理问题,作为ARB的子集,需要复杂的符号思维和深入的学科知识。这些问题非常困难,超出了当前LLMs的范围。

“认识高级推理基准(ARB):一个评估大型语言模型的新基准” 四海 第3张

该团队对ARB基准进行了评估,包括GPT-4和Claude。这些模型在处理这些困难的复杂性方面遇到了困难,这些发现表明它们在ARB中更困难的任务上的表现得分明显低于50%。该团队还演示了一种基于评分表的评估方法,以改进评估过程。通过使用这种策略,GPT-4可以评估自己的中间推理过程,试图解决ARB问题。这扩大了审查过程的范围,并揭示了模型的问题解决策略。

ARB的符号子集也经过了人工审查。人工注释员被要求解决问题并提供自己的评估。人类评估者和GPT-4的基于评分表的评估分数之间存在有希望的一致性,表明模型的自我评估与人类判断相当一致。在需要专业推理的数量领域中,新数据集明显优于以前的基准,其中有数百个问题。

与过去基准中的多项选择题不同,大部分问题由简答和开放式回答组成,这使得LLMs更难进行评估。通过专家级推理任务和更现实的问题格式的结合,可以更准确地评估模型处理复杂的现实问题的能力。

Leave a Reply

Your email address will not be published. Required fields are marked *