理解大型语言模型：(聊天)GPT和BERT的物理学

从物理学家的角度看，粒子和力如何帮助我们理解LLM。

ChatGPT，或更广泛地说，大型语言AI模型（LLMs）已经成为我们生活中无处不在的存在。然而，对于大多数人来说，LLMs的数学和内部结构都是模糊的知识。

那么，我们如何超越将ChatGPT等LLMs视为神奇黑盒子的感知？物理学可能提供了答案。

每个人对我们的物理世界都有一定的了解。诸如汽车、桌子和行星等物体由数万亿个原子组成，受一套简单的物理法则控制。类似地，像ChatGPT这样的复杂生物体能够产生艺术和科学等高度复杂的概念。

事实证明，LLMs的构建块方程类似于我们的物理法则。通过理解复杂性是如何从简单的物理法则中产生的，我们也许能够对LLMs的工作原理有一些见解。

我们的世界本质上是复杂的，然而它可以用极少的基本相互作用来描述。例如，复杂的雪花和泡沫薄膜可以与分子之间的简单引力相联系。

那么，复杂结构的产生有什么共同之处？在物理学中，当我们从最小到最大的尺度进行放大时，复杂性就会产生。

类比到语言，英语从一些基本的组成部分开始——26个字母。这些符号可以组合成大约10万个可用单词，每个单词都有着独特的含义。从这些单词中，可以生成无数句子、段落、书籍和卷册。

这种语言层次结构类似于物理学中的层次结构。我们当前的基本定律（标准模型）以少数基本粒子（如夸克和电子）为起点，以及…