从编码到嵌入 – 四海吧

概念和基础知识：从SVD到神经网络

在本文中，我们将讨论数据表示和机器学习领域的两个基本概念：编码（Encoding）和嵌入（Embedding）。本文的内容部分取自我在斯坦福大学的CS246 Mining Massive DataSet（MMDS）课程中的一堂讲座。希望对您有所帮助。

所有机器学习（ML）方法都使用输入特征向量，几乎所有方法都要求输入特征是数值型的。从ML的角度来看，特征可以分为四种类型：

数值型（连续或离散）：数值数据可以是连续的或离散的。连续数据可以在一定范围内取任意值，而离散数据具有明确的取值。身高是连续数值变量的例子，年龄是离散数值变量的例子。
分类型（有序或无序）：分类数据表示特征的特性，如眼睛颜色和家乡。分类数据可以是有序的或无序的。有序变量的数据属于按某种特定方式排名的有序类别。一个例子是`技能水平`，它的取值为[`初级`，`中级`，`高级`]。无序变量的取值没有顺序。一个例子是`眼睛颜色`，它的取值为[`黑色`，`棕色`，`蓝色`，`绿色`]。
时间序列：时间序列是在一段时间内以固定间隔收集的数字序列。与前面的变量不同，这些数据是按时间顺序排列的。一个例子是`美国多年来的房屋销售价格平均值`。
文本：任何文档都是文本数据，我们通常将其表示为“词袋”。

为了将任何变量输入到机器学习模型中，我们必须将它们转换为数值型。编码和嵌入技术都可以实现这一点。

编码是将原始数据（如文本、图像或音频）转换为结构化的数值格式的过程，以便计算机可以轻松处理。有两种方法可以对分类变量进行编码：

1️⃣ 整数编码