这项来自UCLA的AI研究表明，大型语言模型（如GPT-3）已经获得了一种新兴的能力，可以找到广泛范围的类比问题的零射击解决方案

这项来自UCLA的AI研究表明，大型语言模型（如GPT-3）已经获得了一种新兴的能力，可以找到广泛范围的类比问题的零射击解决方案四海第1张

类比推理是人类智能和独创性的基石。当面对一个陌生的挑战时，人们经常通过系统地将其与一个更熟悉的场景进行比较来找出可行的解决方案。这种方法在人类的思维中扮演着重要的角色，涵盖了从解决日常问题到培养创造性概念和推动科学发现边界的各种活动。

随着深度学习和大型语言模型（LLMs）的进步，人们对LLMs进行了广泛的类比推理测试和研究。先进的语言模型具有独立推理和抽象模式识别的能力，成为人类智能的基本原则。

由加州大学洛杉矶分校的研究团队进行的一项研究揭示了LLMs的真正能力。这项研究因其有影响力的发现而获得了显着的认可。这些发现被收录在最新一期的《自然人类行为》杂志中，文章标题为“高级语言模型中的类比推理的出现”。该研究表明，大型语言模型（LLMs）能够像人类一样思考，而不是基于统计数据来模仿我们的思维。

该研究对人类推理者和强大的语言模型（text-davinci-003，即GPT-3的一个版本）在各种类比任务中进行了对比评估。

研究人员通过不预先训练的方式，对语言模型GPT-3进行了各种类比任务的检验，并与人类的回答进行了直接比较。这些任务涉及了一个独特的基于文本的矩阵推理挑战，从雷文标准渐进矩阵（SPM）的规则结构中汲取灵感。此外，他们还进行了一个视觉类比任务。

模型的起点是在一个海量的基于网络的真实语言数据集上进行训练的基础版本，总共超过4000亿个标记。这个训练过程是通过下一个标记预测目标来引导的，模型学会了在给定的文本序列中预测最有可能的下一个标记。

这个评估包括四个不同的任务类别，每个任务类别都经过策略性的设计，以探索类比推理的各个方面：

基于文本的矩阵推理挑战
字母串类比
四项词语类比
故事类比

在这些领域中，他们直接比较了模型的表现与人类的表现，研究了整体效果和错误模式，类似于人类进行类比推理的方式。

GPT-3在把握抽象模式方面表现出色，往往在各种情景下与人类表现相当甚至更好。GPT-4的早期试验似乎显示出更有希望的结果。从已经观察到的情况来看，像GPT-3这样的大型语言模型似乎有一种自发地解决各种类比难题的能力。

此外，他们发现text-davinci-003在类比任务中表现出色。有趣的是，早期的模型版本在某些任务场景中也表现出色，暗示了一些因素的融合增强了text-davinci-003在类比推理方面的能力。

GPT-3在处理字母串类比、四项词语类比以及在故事中发现类比的能力方面展示了一些令人印象深刻的技能，而没有进行预先训练。这些发现有助于扩大对这些先进语言模型能力的认识，暗示着更先进的模型已经具备了通过类比进行推理的内置能力。