“认识高级推理基准（ARB）：一个评估大型语言模型的新基准”

“认识高级推理基准（ARB）：一个评估大型语言模型的新基准” 四海第1张

自然语言处理在最近几年取得了显著进展，特别是创建了复杂的语言模型。几乎所有的自然语言任务，包括翻译和推理，在像GPT 3.5、GPT 4、BERT、PaLM等著名模型的性能方面都取得了显著进步。一些基准用于评估和评估人工智能领域中这些发展。基准基本上是一组标准化任务的集合，用于测试语言模型的能力。

考虑到GLUE和SuperGLUE基准，它们是最早的几个语言理解基准，像BERT和GPT-2这样的模型更具挑战性，因为语言模型一直在击败这些基准，引发了模型开发和基准难度之间的竞争。通过使模型变得更大并在更大的数据集上进行训练，可以提高性能。LLMs在各种基准测试中展示了出色的表现，评估了它们的知识和数量推理能力，但是当这些模型在当前标准上得分更高时，很明显这些基准已不再适用于评估模型的能力。

为了解决这些限制，一组研究人员提出了一个新的独特基准，称为ARB（高级推理基准）。ARB旨在传达各种学科领域（如数学、物理、生物学、化学和法律）中更困难的问题。与早期的基准相比，ARB侧重于复杂的推理问题，以提高LLM的性能。该团队还引入了一组数学和物理问题，作为ARB的子集，需要复杂的符号思维和深入的学科知识。这些问题非常困难，超出了当前LLMs的范围。

该团队对ARB基准进行了评估，包括GPT-4和Claude。这些模型在处理这些困难的复杂性方面遇到了困难，这些发现表明它们在ARB中更困难的任务上的表现得分明显低于50%。该团队还演示了一种基于评分表的评估方法，以改进评估过程。通过使用这种策略，GPT-4可以评估自己的中间推理过程，试图解决ARB问题。这扩大了审查过程的范围，并揭示了模型的问题解决策略。

ARB的符号子集也经过了人工审查。人工注释员被要求解决问题并提供自己的评估。人类评估者和GPT-4的基于评分表的评估分数之间存在有希望的一致性，表明模型的自我评估与人类判断相当一致。在需要专业推理的数量领域中，新数据集明显优于以前的基准，其中有数百个问题。

与过去基准中的多项选择题不同，大部分问题由简答和开放式回答组成，这使得LLMs更难进行评估。通过专家级推理任务和更现实的问题格式的结合，可以更准确地评估模型处理复杂的现实问题的能力。