线性代数的鸟瞰：为什么矩阵乘法会是这样的？

为什么第一个矩阵的列应与第二个矩阵的行匹配？为什么不让两个矩阵的行匹配？

这是正在进行中的线性代数书籍《线性代数的鸟瞰图》的第三章。到目前为止，目录如下：

在这里，我们将描述我们可以使用两个矩阵进行的操作，但要记住它们只是线性映射的表示。

几乎任何信息都可以嵌入到一个向量空间中。图像、视频、语言、语音、生物识别信息以及您可以想象的其他任何内容。而机器学习和人工智能的所有应用（如最近的聊天机器人、文本转图像等）都建立在这些向量嵌入之上。由于线性代数是处理高维向量空间的科学，它是一个不可或缺的基石。

很多技术涉及从一个空间中获取一些输入向量，并将它们映射到另一个空间中的其他向量。

但为什么关注“线性”，当大多数有趣的函数都是非线性的呢？这是因为我们将模型提高到高维和将其非线性化（足够通用以捕捉各种复杂关系）这两个问题在数学上是正交的。许多神经网络架构通过在它们之间使用具有简单一维非线性的线性层来工作。并且有一个定理说这种架构可以模拟任何函数。

由于我们主要通过矩阵乘法来操作高维向量，可以说它是现代人工智能革命的基石。