Press "Enter" to skip to content

使用Python实现的四种编码高基数分类特征的方法

学习使用scikit-learn和TensorFlow应用目标编码、计数编码、特征哈希和嵌入

“Click” — Photo by Cleo Vermij on Unsplash

在本文中,我们将介绍4种常用的编码高基数分类变量的方法:(1) 目标编码,(2) 计数编码,(3) 特征哈希(4) 嵌入

我们将解释每种方法的工作原理,讨论其优缺点,并观察其对分类任务性能的影响。

目录

— 引入分类特征 (1) 为什么需要对分类特征进行编码?(2) 为什么独热编码不适用于高基数特征?— 在AdTech数据集上的应用— 每种编码方法的概述 (1) 目标编码 (2) 计数编码 (3) 特征哈希 (4) 嵌入— 预测点击率的性能基准测试— 结论— 进一步探索

引入分类特征

分类特征是一种描述类别或组别的变量(例如性别、颜色、国家),与数值特征不同,数值特征度量数量(例如年龄、身高、温度)。

分类数据有两种类型:有序特征,其类别可以排序和排序(例如T恤尺码或餐厅评级从1到5星),以及名义特征,其类别不暗示任何有意义的顺序(例如一个人的名字、城市的名字)。

为什么需要对分类特征进行编码?

对分类变量进行编码意味着找到一种映射,将类别转换为数值。

虽然某些算法可以直接处理分类数据(如决策树),大多数机器学习模型无法处理分类特征,它们被设计为操作…

Leave a Reply

Your email address will not be published. Required fields are marked *