Press "Enter" to skip to content

高基数分类变量的混合效应机器学习 —— 第二部分:GPBoost库

使用真实数据在Python和R中展示GPBoost的演示

高基数分类数据的插图:不同类别变量水平的箱线图和原始数据(红色点) — 图片来源作者

高基数分类变量是指在数据集的样本量相对较小的情况下,不同水平的数量较大的变量。在本系列的第一部分中,我们对不同的机器学习方法进行了实证比较,发现随机效应是处理高基数分类变量的有效工具,而GPBoost算法在预测准确度上表现最好 [Sigrist, 2022, 2023]。在本文中,我们演示了如何使用GPBoost算法,结合Python和R包中的GPBoost库,对高基数分类变量进行处理。本演示中使用的GPBoost版本为1.2.1。

目录

∘ 1 简介∘ 2 数据:描述、加载和样本拆分∘ 3 训练GPBoost模型∘ 4 选择调参参数∘ 5 预测∘ 6 解释∘ 7 进一步建模选项 · · 7.1 分类变量与其他预测变量之间的交互作用 · · 7.2 (广义)线性混合效应模型∘ 8 结论和参考文献

1 简介

应用GPBoost模型涉及以下主要步骤:

  1. 定义一个GPModel,其中指定以下内容:— 随机效应模型:通过group_data和/或高斯过程gp_coords进行分组随机效应— likelihood(=在固定效应和随机效应条件下响应变量的分布)
  2. 创建一个包含响应变量(label)和固定效应预测变量(data)的Dataset
  3. 选择调参参数,例如使用函数gpb.grid.search.tune.parameters
  4. 训练模型
  5. 进行预测和/或解释训练好的模型

接下来,我们逐步介绍这些要点。

Leave a Reply

Your email address will not be published. Required fields are marked *