使用Python实现的四种编码高基数分类特征的方法

学习使用scikit-learn和TensorFlow应用目标编码、计数编码、特征哈希和嵌入

在本文中，我们将介绍4种常用的编码高基数分类变量的方法：(1) 目标编码，(2) 计数编码，(3) 特征哈希和(4) 嵌入。

我们将解释每种方法的工作原理，讨论其优缺点，并观察其对分类任务性能的影响。

— 引入分类特征 (1) 为什么需要对分类特征进行编码？(2) 为什么独热编码不适用于高基数特征？— 在AdTech数据集上的应用— 每种编码方法的概述 (1) 目标编码 (2) 计数编码 (3) 特征哈希 (4) 嵌入— 预测点击率的性能基准测试— 结论— 进一步探索

分类特征是一种描述类别或组别的变量（例如性别、颜色、国家），与数值特征不同，数值特征度量数量（例如年龄、身高、温度）。

分类数据有两种类型：有序特征，其类别可以排序和排序（例如T恤尺码或餐厅评级从1到5星），以及名义特征，其类别不暗示任何有意义的顺序（例如一个人的名字、城市的名字）。

对分类变量进行编码意味着找到一种映射，将类别转换为数值。

虽然某些算法可以直接处理分类数据（如决策树），大多数机器学习模型无法处理分类特征，它们被设计为操作…