Press "Enter" to skip to content

从编码到嵌入

概念和基础知识:从SVD到神经网络

credit: https://unsplash.com/

在本文中,我们将讨论数据表示和机器学习领域的两个基本概念:编码(Encoding)和嵌入(Embedding)。本文的内容部分取自我在斯坦福大学的CS246 Mining Massive DataSet(MMDS)课程中的一堂讲座。希望对您有所帮助。

介绍

所有机器学习(ML)方法都使用输入特征向量,几乎所有方法都要求输入特征是数值型的。从ML的角度来看,特征可以分为四种类型:

  1. 数值型(连续或离散):数值数据可以是连续的或离散的。连续数据可以在一定范围内取任意值,而离散数据具有明确的取值。身高是连续数值变量的例子,年龄是离散数值变量的例子。
  2. 分类型(有序或无序):分类数据表示特征的特性,如眼睛颜色和家乡。分类数据可以是有序的或无序的。有序变量的数据属于按某种特定方式排名的有序类别。一个例子是`技能水平`,它的取值为[`初级`,`中级`,`高级`]。无序变量的取值没有顺序。一个例子是`眼睛颜色`,它的取值为[`黑色`,`棕色`,`蓝色`,`绿色`]。
  3. 时间序列:时间序列是在一段时间内以固定间隔收集的数字序列。与前面的变量不同,这些数据是按时间顺序排列的。一个例子是`美国多年来的房屋销售价格平均值`。
  4. 文本:任何文档都是文本数据,我们通常将其表示为“词袋”。

为了将任何变量输入到机器学习模型中,我们必须将它们转换为数值型。编码和嵌入技术都可以实现这一点。

编码

编码是将原始数据(如文本、图像或音频)转换为结构化的数值格式的过程,以便计算机可以轻松处理。有两种方法可以对分类变量进行编码:

1️⃣ 整数编码

Leave a Reply

Your email address will not be published. Required fields are marked *