学习使用scikit-learn和TensorFlow应用目标编码、计数编码、特征哈希和嵌入
在本文中,我们将介绍4种常用的编码高基数分类变量的方法:(1) 目标编码,(2) 计数编码,(3) 特征哈希和(4) 嵌入。
我们将解释每种方法的工作原理,讨论其优缺点,并观察其对分类任务性能的影响。
目录
— 引入分类特征 (1) 为什么需要对分类特征进行编码?(2) 为什么独热编码不适用于高基数特征?— 在AdTech数据集上的应用— 每种编码方法的概述 (1) 目标编码 (2) 计数编码 (3) 特征哈希 (4) 嵌入— 预测点击率的性能基准测试— 结论— 进一步探索
引入分类特征
分类特征是一种描述类别或组别的变量(例如性别、颜色、国家),与数值特征不同,数值特征度量数量(例如年龄、身高、温度)。
分类数据有两种类型:有序特征,其类别可以排序和排序(例如T恤尺码或餐厅评级从1到5星),以及名义特征,其类别不暗示任何有意义的顺序(例如一个人的名字、城市的名字)。
为什么需要对分类特征进行编码?
对分类变量进行编码意味着找到一种映射,将类别转换为数值。
虽然某些算法可以直接处理分类数据(如决策树),大多数机器学习模型无法处理分类特征,它们被设计为操作…