在为什么机器能思考上

我们如何以最简单的方式思考<阿美祖秋>？

在17世纪，勒内·笛卡尔引入了一个相对新的观念 – “cogito ergo sum”（“我思故我在”）。这个简单的表述成为西方哲学的基础，并且在几个世纪中定义了我们对什么构成人类本质的想法。

从那时起，我们对作为人类意义的理解已经发展。然而，出于种种目的，很多人仍然将思考能力视为人类最重要的标志之一。

因此，当ChatGPT（以及类似模型）发布时，我们开始被大量的文章轰炸，讨论它是否能够思考。

例如，《纽约客》思索：“ChatGPT充满了什么心灵？”；《华盛顿邮报》宣称：“ChatGPT可以在逻辑测试中脱颖而出。但不要指望它有创造力。”；《大西洋月刊》得出结论，“ChatGPT比你想象中的要糊涂”。我个人最喜欢的是这个喜剧演员的视频，试图向一个HR部门的人解释ChatGPT是什么。

与任何其他容易引起猜测的复杂主题一样，人们既夸大了AI模型的思考能力，又低估了它们的能力。因此，让我们来拆解一下这个问题。

思考即推理

思考是一个复杂的概念，已经代表了许多不同的事物。因此，为了简单起见，让我们假设思考与推理更或多或少是同义词。

推理是一个更清晰定义的概念，巧合的是，它越来越被称为AI的未来。这也是笛卡尔（在很大程度上）在谈论思考时所指的。

所以，我们不是问“AI能思考吗？”，而是问“AI能推理吗？”。

简短的回答是可以。长的回答是 – 它能推理，但只是某些方面。

推理并不是一个单一的概念。根据她试图完成的任务类型，人们可以以多种方式进行推理。因此，在这篇文章中，我们首先介绍三种关键推理类型的简要入门，并检查机器在这些方面的表现如何。然后，我们将探讨为什么机器不能进行常识推理，并在回答这个问题之前，我们需要解决什么问题。

推理入门

一般来说，当我们“思考”时，有三种主要的推理类型：演绎推理，归纳推理和拟因推理。

演绎推理

简单来说，演绎推理是从给定的规则和假设为真的情况下得出结论的能力。

想象一下：你把一个锅装满水，打开火炉，并插上一个温度计。因为你在学校学到的东西，你知道水（通常）在100°C沸腾。所以，当有人告诉你温度已经达到100°C时，你可以安全地推断出水正在沸腾（你不需要亲眼见到它，“非常确定”这个事情发生）。

这里是一个有用的结构要记住。

1. 规则：水在达到100℃时沸腾

2. 情况：水的温度为100℃

3. 结果：锅里的水正在沸腾

因此，你从规则和情况推导出一个结果。

推理对于我们进行科学研究是基本的。这也是最容易被机器复制的推理类型。

按设计，几乎每台机器都进行着某种形式的推理。你简单的非光鲜计算器每次问它3+5等于多少时都进行推理并给出答案。而且它里面没有任何人工智能。

如果我们以与上述水的例子相同的结构表达它，我们得到：

规则：计算器已“提供”了规则 1+1 = 2

情况：你问的问题是 3+5 = ?

结果：基于规则，它可以计算/推理出 3+5 = 8

简单易懂。

归纳

归纳是从一组给定观察中概括规则的能力。它对我们进行科学研究至关重要，因为它允许我们定量地识别新模式/规则。

让我们继续使用水沸腾的例子。设想你从未被告知水在100℃时沸腾。所以每次你煮开一锅水时，你都会把温度计放进去测量温度——100次、1000次、10000次。然后，你的朋友也这样做 —— 不管你做了多少次，温度总是100℃。因此，你可以归纳出规则：“水在100℃时沸腾。”

1. 结果：水正在沸腾

2. 情况：每次你把温度计放进去，它总是显示100℃。

3. 规则：水在100℃时沸腾。

哇，你通过观察到的模式定量地确定了一个新规则。为此，你从结果和情况推导出一个规则。

当然，这种推理并非总是正确的。众所周知，欧洲人认为所有的天鹅都是白色，直到他们航行到澳大利亚。此外，我们知道水并不总是在100℃时沸腾（大气压力也起到一定作用）。

只因为某事物发生了10000次都是正确的，并不意味着它将永远正确。然而，10000次往往是一个可靠的选择。

对于机器来说，归纳要困难得多。当然，你的计算器无法进行归纳。然而，机器学习模型可以。实际上，这是它们的主要目标：根据给定的结果进行泛化。

让我们举个简单的例子。假设我们有一个监督分类模型，我们将用于垃圾邮件检测。首先，我们有带标签的训练数据集——垃圾邮件或非垃圾邮件（也就是结果）。在该数据集中，我们为每个结果编译了多个情况。基于这些情况，模型将归纳出自己的规则，以后可以应用于从未见过的情况。

1. 结果：垃圾邮件或非垃圾邮件

2. 案例：大样本的垃圾邮件和非垃圾邮件示例

3. 规则：包含“这些模式和词语”的电子邮件很可能是垃圾邮件（在一定程度上的概率内）

同样，当处理无监督模型，如推荐系统时，该过程则遵循类似的步骤。首先，我们向模型提供一个关于人们在超市购买的商品的数据集（结果）。一旦开始模型训练，我们期望它首先对重复的模式进行聚类（案例），然后归纳出自己的规则，以便将来可以应用到类似情境中。

1. 结果：关于人们购买的未标记数据

2. 案例：模型在数据集中发现的类似购买（例如，每个购买鸡蛋的人也购买培根）。

3. 规则：购买鸡蛋的人也购买培根（在一定程度上的概率内）

在这两种情况下，这些规则并不一定能被人类理解。也就是说，我们知道计算机视觉模型“关注”图像的某个特定部分，但我们很少知道为什么。事实上，模型越复杂，我们了解它使用的规则的机会就越小。

所以，我们来看看机器既能进行归纳又能进行演绎。

演绎和归纳-科学的基石

广泛认为，演绎和归纳的结合是我们进行推理的驱动力。正如我们的例子所显示的，即使是简单的机器学习模型也可以执行这两种操作。

它们首先利用归纳推理从给定的数据集中生成规则。然后，它们将这些规则应用于新的案例。例如，当我们向模型呈现一个之前未见过的照片时，它利用自己的规则推断出具体的结果（例如，它可以告诉我们我们提供的照片是颠倒的）。

然而，大多数数据科学家都会同意，即使是最先进的机器学习模型也无法进行推理。为什么呢？

以水烧开的例子可以简单说明为什么仅仅依靠演绎和归纳并不完全足够。的确，我们需要它们来生成一个规则（“水在100°C时沸腾”），然后在各种不同的案例中验证这个规则。然而，这个组合在解释我们是如何猜测沸腾的结果与温度有关方面还有所不足。

除此之外，演绎和归纳的额外限制也变得显而易见-它们在特定语境中受到一定的限制，并且无法完全包含人类在不同领域之间转化知识的能力。这就是演绎推理发挥作用的地方，它提供了对使我们能够直观地跨越不同领域进行思维跳跃并进行洞察的认知过程的更全面的视角。

演绎推理

演绎推理是从单一的令人惊讶的观察（即结果）生成新的假设的能力。我们每次都在依赖经验时进行这样的推理。

我们出门看到湿街。我们猜测可能前一晚下过雨。我们不需要见过一万个湿街来知道下雨时街道会湿。技术上说，我们甚至不需要之前遇到过湿街-我们只需要知道水接触物体时会使它们变湿。

这意味着，如果我们回到我们的水烧开的例子，我们将有一种不同的推理方式：

1. 结果：水正在沸腾

2. 规则：水在100°C时沸腾

3. 案例：水的温度必须为100°C

我们从结果开始（就像演绎法一样），但我们结合了我们已经知道的规则（基于我们的世界知识和经验）。这两者的结合使我们能够得出一个案例（例如，水在沸腾是由于温度变化）。

演绎是推理类型中最不可靠的。通过演绎得出的假设很可能是不正确的。例如，“湿街”的结果可能与雨无关，也许是因为某个地方的管道破裂了，或者是有人在夜间认真地喷水给街道。然而，雨似乎是一个合理的解释。

因此，演绎推理使我们能够在日常情况下不受阻碍地前进。换句话说，我们不需要进行10000次尝试来做一个简单的决定。

据我所知，迄今为止，没有任何AI模型/算法能够执行演绎推理。至少不是按照我刚才描述的方式。

当然，你们中熟悉20世纪60年代和70年代基于规则的系统的人们可以提到MYCIN、XCON和SHRDLU，并声称它们能够进行演绎推理。其他人可能会引用斯坦福AI指数在2022年和2023年引用的演绎示例作为未来研究最有前途的领域之一（即演绎自然语言推理）。

那么，如果机器在20世纪70年代就能够进行“演绎”，为什么它们仍然不能做到我所说的演绎能做的事情（即常识推理）？

为什么演绎仍然难以捉摸

有两个高层次的原因，即使是最先进的模型也无法执行演绎：混淆和架构。

混淆：演绎与推导最佳解释（IBE）不同

在计算机科学中，长期以来，许多人将IBE和演绎这两个术语混为一谈。甚至ChatGPT也会告诉你两者是一样的，或者演绎是IBE的一个子集（取决于你提问的方式）。在斯坦福哲学百科全书中也有相同的观点。实际上，你在计算机科学这个更大领域中读到的关于演绎的几乎每篇论文都会告诉你它和IBE是一样的。

然而，这两个概念是完全不同的。

一般来说，演绎涵盖了生成新案例的行为（可以将经验从一个情境转移到另一个情境）。另一方面，IBE是一种非常特殊且更具上下文特定性的归纳形式，它不一定需要定量地识别模式（例如，您不需要观察某个模式10000次才能制定一条规则）。它们之间的确切区别是一个相当复杂的哲学讨论。如果你想深入探讨，我推荐阅读这篇论文。

然而，在本文中，对我们有帮助的是将它们与规则、案例和结果的结构以及斯坦福AI Index引用的MYCIN和演绎自然语言推理模型等特定示例进行思考。

MYCIN是20世纪70年代在斯坦福开发的一个早期专家系统，旨在帮助医生诊断传染性疾病。它依赖于一个知识库，其中每个规则都以条件（IF，即案例）和结论（THEN，即结果）的方式表达。然后，它利用了企图从结果和案例向后推导来识别并分配一个从0到1的启发式确定性得分可能最好解释这种情况的规则。换句话说，它是基于结果和案例推理到规则的方式（即归纳推理遵循的模式）。

斯坦福人工智能指数引用的工作被引为人类自然语言演绎（生成假设或选择最合理的假设）的一个例子有点棘手。但实际上它并不是演绎。事实上，我认为它更像是IBE，但它与我们讨论的其他机器学习模型遵循相同的模式- 归纳，然后是演绎。

一些背景；在2020年，Bhagavatula和他的同事们通过一个被称为ART的数据集进行了条件训练，该数据集包含∼20K个以一对观测(O1, O2)和20万个解释性假设定义的叙述背景。训练后，他们提供了一组两个观测值，并要求模型生成一个符合的假设（见图4）。

图4：人类自然语言推理（该图摘自arXiv：1908.05739） — 图4：人类自然语言推理（该图摘自arXiv:1908.05739）

从图中可以看出，当一个transformer模型（GPT-2 + COMeT嵌入）呈现O1（例如，“Junior是一只20+岁的乌龟的名字”）和O2（例如，“Junior仍然活得很好”）时，它可以生成一个合理的假设（例如，“Junior一直和她的朋友们一起在游泳池里游泳”），这可能解释了为什么我们认为Junior仍然活得很好。

这为什么是IBE而不是演绎？

让我们暂时抽象地看待基础的机器学习模型，思考一下人类如何执行这样的推理任务。首先，我们被提供了一个结果：Junior仍然活得很好，并且我们被告知案例是什么（即Junior是一只相对年长的乌龟）。然后，我们会尝试找到一个可以解释案例和结果的潜在（上下文相关的）规则。例如，我们可以归纳出一个仍然活得很好的老乌龟

倾向于与朋友一起玩耍或者
有健康的食欲或者
身体状态良好

等等。

然后我们可以选择最合理（对我们来说）的规则，并将其应用于我们的“一个老乌龟”的案例。这将使我们推测Junior可能一直和朋友一起游泳。

正如已经解释的那样，从有限的观察中确定潜在规则表明这是IBE，并且从这些规则中得出结论往往是演绎的一个较弱形式。

我们人类明白，当一个人变老时（不论是乌龟还是人类），他们的活力会下降（可以争论）。这使得我们能够产生相对“富含意义”的规则。一个transformer模型无法做到这一点。然而，它能做的是提高它对可能跟随所提供案例和结果的最有可能的单词组合的预测（通过归纳然后演绎）。该模型没有潜在的理解，即当Junior玩得开心时，她仍然活得很好。

事实上，甚至可以说关于人类自然语言演绎的工作让人想起了思维链。当然，指令是以不同的方式呈现给transformer的。

所有这些例子的共同点，希望能强调出计算机科学所谓的演绎实际上并不是演绎。相反，它似乎更像是上下文特定的归纳。

架构：当代机器学习模型受到归纳的限制

导致超越现有技术模型无法进行演绎的第二个原因是它们的架构。根据定义，机器学习模型是归纳生成机器。这种倾向由它们所谓的强归纳偏差进一步强化。

归纳偏置是机器学习中的一个关键概念，指的是模型对于其所应该学习的函数类型具有的内在假设或偏好。这种偏置通过限制可能的假设集合来引导学习过程，使学习更加高效准确。

例如，决策树注重层次结构和简单的决策边界。支持向量机旨在找到类别之间的宽边界。卷积神经网络强调图像中的平移不变性和分层特征学习。循环神经网络偏向于顺序模式，贝叶斯网络建模概率关系，正则化线性模型通过惩罚大的系数更偏好简单模型，通用的转换器如GPT-4的特点是能够捕捉数据中的顺序依赖和关系。这些偏置塑造了模型的行为和适用性于不同的任务。它们也使得从一个情境到另一个情境的知识转移变得困难。

我们仍然需要什么

好的，到目前为止，我们讨论了一些关于推理的初步知识，并且我们看到机器确实可以推理。它们可以进行演绎和归纳。然而，我们直观上所谓的“思考”是通过诱因推理来实现的，它因混淆和架构而变得难以捉摸。

那么，我们需要什么呢？

我们如何构建能够进行诱因推理的东西呢？

嗯，首先，我们需要能够准确定义什么是诱因推理以及它是如何工作的。遗憾的是，在这方面并没有太多研究。特别是当涉及到诱因推理与归纳和演绎的关系以及机器如何运作时。学者们唯一一致的看法是诱因推理居于首位，接着是归纳和演绎。

那么，什么是诱因推理？

诱因推理并不是一个单一的概念。根据所涉及的科学领域，我个人遇到过大约10种不同类型的诱因推理。甚至引入诱因推理这个概念的哲学家Charles Peirce本人对其含义也没有一致的说法。

然而，有三种主要类型可以描述诱因推理所起到的基本功能。具体的功能以及它们的形成过程在此文章中太复杂无法涵盖。因此，下面是摘要。

首先，我们有最直接的解释型诱因推理。这是我们到目前为止讨论过的类型。为了使用它，我们从一个观察结果和一个易于识别的规则开始。这两者的结合使我们能够对案例进行猜测。这在烧水的例子中有很好的说明。

然后，我们有创新型诱因推理，这是一种从（期望的）结果推导出一个案例和规则对的类型。换句话说，我们只知道我们想要创建的结果，然后我们需要逐步定义一个案例-规则组合，以实现所需的结果。这种类型的诱因推理通常用于生成新颖的想法。

最后，我们有一种我认为是最有趣的诱因推理类型——操控型。我们在只知道部分（期望或其他）结果的情况下使用它。此外，定义这个结果所“存在”的上下文由多个隐藏的相互依赖关系定义。因此，不能立即开始寻找/生成适当的案例-规则对。相反，我们需要更好地理解结果及其与环境的关系，以降低不确定性水平。

这时候所谓的思考设备/认识中介就派上用场了。它可以是基本的草图、原型或3D模型，作为增强我们对问题理解的手段。通过在目标环境中操纵这个中介，我们可以更深入地理解上下文。因此，我们更能够探索规则和案例的潜在组合。此外，它还允许我们建立有助于从一个领域转移知识的关联。这种简化版本的思维通常在立体几何中应用。

正如我所说，我们还需要在这些诱因推理类型之间以及它们与其他推理方法之间的关系方面进行更多的研究。这项努力变得越来越重要，因为它具有提供有价值的见解，能够在不同领域之间的知识转移中发挥作用。尤其是在我们看到的关于推理的重新关注之下，不论是通过IBE，”通过模拟和例子进行推理”，还是System-1和System-2的思考。

在所有这些中，了解如何将机器执行的不同类型的推理区分开似乎是非常重要的。因为是的，机器可以进行推理。但是它们不能进行完整的推理谱系。

*关于IBE的其他有趣工作可以在这篇论文中找到（尽管他们将绑架与IBE等同了起来）。