主成分分析的概率视角

潜在变量、期望最大化和变分推断

数据科学和机器学习中最常用的降维技术之一是主成分分析（PCA）。在之前的文章中，我们已经讨论了在支持向量机管道中应用PCA的一些示例，而在这里，我们将从概率的角度来看待PCA，以提供对底层数据结构更强大和全面的理解。概率主成分分析（PPCA）的最大优点之一是它可以处理数据集中的缺失值，而传统的PCA则无法做到这一点。由于我们将讨论潜在变量模型和期望最大化算法，您还可以查看这篇详细的文章。

从这篇文章中您可以期望学到什么呢？

PCA的简介。
PPCA的数学基础。
期望最大化（EM）算法还是变分推断？用于参数估计的选择。
使用TensorFlow Probability对一个玩具数据集实现PPCA。

让我们深入探讨一下！

1. 奇异值分解（SVD）和PCA：

线性代数中一个重要的概念是SVD，它是一种用于实数或复数矩阵的因子分解技术，例如一个矩阵（记为A）可以被分解为：

其中U、Vᵀ是正交矩阵（转置等于逆矩阵），Σ是一个对角矩阵。A不一定是一个方阵，假设它是一个N×D的矩阵，我们可以将其看作是具有N个实例和D个特征的数据矩阵。U、V是方阵（分别为N×N和D×D），Σ将是一个N×D的矩阵，其中D×D的子集将是对角线，其余的元素将为零。

我们还了解到特征值分解。给定一个可对角化的方阵（B），可以将其分解为：

其中Q是一个N×N的方阵，其第i列是B的特征向量q_i，Λ是一个对角阵，其对角线元素是相应的特征值。