与人类思维和推理的类比
随着生成型文本模型(如ChatGPT、GPT-4等)的出现,人工智能的状态发生了巨大变化。
这些GPT(生成预训练变换器)模型似乎消除了对那些没有技术背景的人涉足人工智能的门槛。任何人都可以开始向模型提问并获得令人惊讶的准确答案。
至少大部分时间是如此…
当它无法产生正确的输出时,并不意味着它无法做到。通常,我们只需要改变我们提问的方式,即提示,以引导模型朝着正确答案的方向发展。
这通常被称为提示工程。
提示工程中的许多技术都试图模仿人类思考的方式。要求模型“大声思考”或“让我们一步一步地思考”是模型模仿我们思考方式的绝佳例子。
由于这些类比让我们了解我们如何改进GPT模型的输出,它们与人类心理学之间的这些类比是很重要的。它向我们展示了它们可能缺少的能力。
这并不意味着我主张任何GPT模型作为通用智能,但看到我们如何以及为什么试图使GPT模型像人类“思考”是有趣的。
您将在下面的视频中看到这些类比的许多讨论。Andrej Karpathy从心理学的角度分享了有关大型语言模型的令人惊奇的见解,绝对值得一看!
使用有趣的心理学类比描述GPT状态的优秀视频。
作为一名数据科学家和心理学家,这是一个我非常关心的课题。看到这些模型的行为方式,我们希望它们如何行为,以及我们如何影响这些模型像我们一样行为,这是非常有趣的。
有许多主题涉及到GPT模型和人类心理学之间的类比,这些类比提供了有趣的见解,将在本文中进行讨论:
免责声明:在讨论GPT模型与人类心理学的类比时,存在一定的风险,即将人工智能拟人化。换句话说,将这些GPT模型与人类化。这绝对不是我的意图。本文不涉及存在主义风险或通用智能,只是一种有趣的类比,将我们与GPT模型之间的相似之处进行对比。如果有任何问题,请随意对此持保留态度!
提示
提示是我们向GPT模型提出的问题,例如:“创建一个包含10本书名的列表”。
当我们尝试不同的问题,希望提高模型的性能时,我们就应用了提示工程。
在心理学中,有许多不同形式的提示,用于促使个体表现出特定的行为,这通常用于应用行为应用(ABA)中学习新行为。
这在GPT模型与心理学中的工作方式之间存在明显的区别。在心理学中,提示是关于学习新行为的。个体以前不能做到这一点。对于GPT模型而言,这是展示以前未见过的行为。
主要区别在于个体会学到全新的东西,并在一定程度上作为个体发生变化。相比之下,GPT模型已经能够展示那种行为,只是由于其环境(即提示)的原因没有这样做。即使您成功地从模型中引出“适当”的行为,模型本身也没有改变。
GPT模型中的提示也更加明显。提示中的许多技术是尽可能明确的(例如,“你是一名科学家。总结这篇文章。”)。
模仿行为
GPT模型是模仿者。它和类似的模型都是在大量文本数据上进行训练,并尽力复制这些数据。
这意味着当你向模型提问时,它会尝试生成一系列与其在训练过程中所见到的内容最匹配的词语。随着足够多的训练数据,这个词语序列变得越来越连贯。
然而,这样的模型并没有真正理解它所模仿行为的内在能力。正如本文中的许多事情一样,GPT模型是否真正具备推理能力是有待讨论的,并且经常引发激烈的讨论。
虽然我们具备模仿行为的内在能力,但这需要社会构造和生物学的基础。我们在某种程度上理解模仿行为并且可以轻松地将其概括。
身份
我们对自己有一种先入为主的认知,了解经历如何塑造了我们,以及我们对世界的看法。我们有一个身份。
GPT模型没有身份。它对我们所生活的世界有很多知识,并且知道我们可能更喜欢哪种答案,但它没有“自我”的意识。
它并不一定会像我们一样被引导到某些观点。从身份的角度来看,它是一个空白的状态。这意味着,由于GPT模型对世界有很多知识,它具备一定的能力来模仿你要求的身份。
但是,正如总是的情况一样,这只是模仿行为。
它有一个重要的优势。我们可以要求模型扮演科学家、作家、编辑等角色,它会尽力去追随。通过引导它模仿特定的身份,它的输出将更加适应任务。
能力
这是一个有趣的主题。有许多来源用于评估大型语言模型在各种测试中的表现,例如Hugging Face排行榜或使用Elo评级挑战大型语言模型。
这些测试是评估这些模型能力的重要指标。然而,我认为某个模型的优点,你可能不同意。
这涉及到模型本身。即使我们告诉它这些测试的分数,它仍然不知道自己的优势和劣势相对于其他模型。例如,GPT-4通过了律师资格考试,我们通常认为这是一个很大的优势。然而,模型可能不会意识到,在一个充满经验丰富的律师的房间里,仅仅通过了律师资格考试并不是一个优势。
换句话说,一个人的能力被认为是优势还是劣势高度依赖于情境。我们自己的能力也是如此。我可能认为自己在大型语言模型方面很熟练,但如果你把我和Andrew Ng、Sebastian Raschka等人放在一起,我对大型语言模型的了解突然就不再是优势了。
这一点很重要,因为模型并不会本能地知道什么是优势或劣势,所以你应该告诉它。
例如,如果您觉得该模型在解决数学方程时表现不佳,您可以告诉它永远不要进行任何计算,而是使用 Wolfram 插件。
相反,虽然我们声称对自己的优点和缺点有一些认识,但这些往往是主观的,并且往往具有很大的偏见。
工具
如前所述,GPT 模型不知道自己在特定情况下擅长或不擅长什么。您可以通过向提示添加情况说明来帮助它理解情况。通过描述情况,模型会更准确地生成答案。
但这并不意味着它在所有任务上都能胜任。就像人类一样,解释情况有所帮助,但并不能克服所有的弱点。
相反,当我们面对目前无法胜任的事物时,我们通常依赖工具来克服困难。在做复杂方程时我们使用计算器,或者使用汽车进行更快的交通。
GPT 模型并不会自动依赖外部工具。当您确信模型无法完成某项任务时,您需要告诉模型使用特定的外部工具。
重要的是,我们每天都依赖大量的工具,如手机、钥匙、眼镜等。让 GPT 模型具备相同的功能可以极大地提高其性能。这些外部工具类似于 OpenAI 提供的插件。
这样做的一个主要缺点是,这些模型不会自动使用工具。只有在您告诉模型存在这种可能性时,它才会使用插件。
内心独白
通常,我们在解决困难问题时会与内心对话。比如:“如果我这样做,那会得到这样的结果,但如果我那样做,可能会得到更好的解决方案。”
GPT 模型并不会自动展现这种行为。当您向它提问时,它仅仅会生成一些最合乎逻辑的词语,这些词语逻辑上应该是问题的后续。它确实计算这些词语,但不会利用它们来创建这种内心独白。
事实证明,通过说“让我们一步一步地思考”这样的话,要求模型“大声思考”,通常会大大改善其答案。这被称为思维链,试图模拟人类推理的思维过程。这并不一定意味着模型在“推理”,但看到这个过程对其性能的提升程度是很有趣的。
<p作为一个额外的好处,模型并不会在内部进行这种独白,因此跟随模型的思考过程可以给出关于其行为的惊人见解。
与我们的思维方式相比,这种“内心独白”要简化得多。我们在与自己对话的“对话”中更加灵活,以及我们进行这种“对话”的方式也更加多样化。它可以是符号性的、运动性的,甚至是情感性的。例如,许多运动员通过想象自己在他们擅长的运动中的表现来训练实际的技能。这被称为心智想象。
这些对话使我们能够进行头脑风暴。我们用它来产生新的想法、解决问题,并理解问题出现的背景。相比之下,GPT 模型需要明确告诉它通过具体的指示来进行头脑风暴。
我们还可以将这与我们的系统 1 和系统 2 的思考过程相关联。系统 1 思考是一种自动、直观且近乎瞬间的过程。我们在这里几乎没有控制。相比之下,系统 2 是一种有意识、缓慢、逻辑和费力的过程。
通过赋予GPT模型自我反思的能力,我们本质上是在模仿这种系统2的思维方式。该模型花费更多时间生成答案并仔细检查,而不是快速生成回复。
粗略地说,我们可以说,在没有任何提示工程的情况下,我们启用了它的系统1思维过程,而在没有具体指令和类似思维链的过程的情况下,我们启用了它的系统2思维方式。
如果您想了解更多关于我们的系统1和系统2思维的内容,有一本名为《思考,快与慢》的惊人之作是值得一读的!
记忆
在本文开始提到的视频中,Andrej Karpathy对人类记忆能力与GPT模型的记忆能力进行了很好的比较。
我们的记忆相当复杂,包括长期记忆、工作记忆、短期记忆、感觉记忆等等。
我们可以非常粗略地将GPT模型的记忆视为四个组成部分,并将其与我们自己的记忆系统进行比较:
- 长期记忆
- 工作记忆
- 感觉记忆
- 外部记忆
GPT模型的长期记忆可以被视为其在数十亿数据上进行训练时所学到的东西。这些信息在一定程度上被模型表示,它可以随时完美地复制。这种长期记忆将伴随模型的存在而持续存在。相比之下,我们的长期记忆会随着时间的推移而衰退,通常被称为衰退理论。
GPT模型的长期记忆是完美的,不会随时间衰退
GPT模型的工作记忆是指您给予它的提示中所包含的所有信息。模型可以使用所有这些信息完美地进行计算并给出回应。这与我们的工作记忆非常类似,因为它是一种具有有限容量的记忆,可以临时保存信息。例如,GPT模型在给出回应后会“忘记”其提示。之所以它似乎记得对话是因为除了提示之外,对话历史也被添加到提示中。
当涉及到新信息时,GPT模型是健忘的
感觉记忆与我们从感觉中获得的信息有关,例如视觉、听觉和触觉信息。我们将这些信息传递给我们的短期记忆或工作记忆进行处理。这类似于多模态GPT模型,它们可以处理文本、图像甚至声音。
然而,更恰当地说,GPT模型具有多模态的工作和长期记忆,而不是感觉记忆。这些模型将多模态数据与不同形式的“记忆”紧密结合在一起。因此,正如我们之前所看到的,它更像是模仿感觉记忆。
GPT模型通过多模态训练过程模仿感觉记忆
最后,当您给予GPT模型外部记忆时,它变得更加强大。这指的是它可以随时访问的信息数据库,例如几本关于物理学的书籍。相比之下,我们的外部记忆使用环境中的线索来帮助我们记住某些思想和感觉。在某种程度上,这是关于访问外部信息与记忆内部信息之间的区别。
注意:我没有提到短期记忆。关于短期记忆和工作记忆之间的讨论很多,它们是否实际上是相同的东西。常常提到的一个区别是,工作记忆不仅仅是短期存储信息,还具有操作信息的能力。此外,它与GPT模型有更好的类比,所以我们在这里挑选一下。
自主性
正如本文中所述,如果我们希望GPT模型做某事,我们应该告诉它。
这一点很重要,因为它涉及到自治的感觉。默认情况下,我们有一定程度的自治权。如果我决定去喝一杯,我可以去。
对于GPT模型来说,它默认没有自主权。它不能在没有必要的工具和环境的情况下独立运行。
我们可以通过让GPT模型创建一些任务来给它自主权,以便达到特定的目标。对于每个任务,它会写下完成任务的步骤,反思这些步骤,并在有必要的工具的情况下执行它们。
AutoGPT是给予GPT模型自主权的一个很好的例子
因此,无论模型能力如何,它都非常依赖于环境,比我们所受到的环境影响更大。考虑到我们所受到的环境对我们的影响,这是相当有影响力的。
这也意味着,尽管GPT模型可以展示令人印象深刻的复杂自主行为,但它是固定的。它无法决定使用我们从未告诉它存在的工具。对于我们来说,我们更能适应新的和以前未知的工具。
幻觉
GPT模型常见的问题是它们能够自信地说出一些在训练数据中根本不正确或不支持的内容。
例如,当你询问一个GPT模型生成关于苹果公司2019年收入的事实信息时,它可能会生成完全错误的信息。
这就是所谓的幻觉。
这个术语源自人类心理学中的幻觉,我们相信我们所看到的东西是真实的,而实际上并不是。这里的主要区别是,人类的幻觉是基于感知,而模型的“幻觉”是指生成不正确的事实。
更恰当地说,这更类似于错误记忆。人类倾向于将事情回忆得与实际发生的不同。这类似于GPT模型试图重现从未发生过的事情。
有趣的是,我们更容易通过暗示、启发、框架等方式生成错误的记忆。这似乎更符合GPT模型“幻觉”的方式,因为它接收到的提示具有很高的影响力。
我们的记忆也可以受到来自他人的提示/短语的影响。例如,通过问一个人“这辆车是什么颜色的?”我们在暗示一个人一个所谓的“事实”,即这辆车是红色的,即使它实际上不是。这可能会产生错误的记忆,被称为预设。
谢谢阅读!
如果您和我一样对人工智能、数据科学或心理学充满热情,请随时在领英上添加我,关注我的推特或订阅我的通讯。您也可以在我的个人网站上找到我的一些内容。
所有未标明来源的图片均由作者创建