使用真实数据在Python和R中展示GPBoost的演示

高基数分类变量是指在数据集的样本量相对较小的情况下,不同水平的数量较大的变量。在本系列的第一部分中,我们对不同的机器学习方法进行了实证比较,发现随机效应是处理高基数分类变量的有效工具,而GPBoost算法在预测准确度上表现最好 [Sigrist, 2022, 2023]。在本文中,我们演示了如何使用GPBoost算法,结合Python和R包中的GPBoost
库,对高基数分类变量进行处理。本演示中使用的GPBoost
版本为1.2.1。
目录
∘ 1 简介∘ 2 数据:描述、加载和样本拆分∘ 3 训练GPBoost模型∘ 4 选择调参参数∘ 5 预测∘ 6 解释∘ 7 进一步建模选项 · · 7.1 分类变量与其他预测变量之间的交互作用 · · 7.2 (广义)线性混合效应模型∘ 8 结论和参考文献
1 简介
应用GPBoost模型涉及以下主要步骤:
- 定义一个
GPModel
,其中指定以下内容:— 随机效应模型:通过group_data
和/或高斯过程gp_coords
进行分组随机效应—likelihood
(=在固定效应和随机效应条件下响应变量的分布) - 创建一个包含响应变量(
label
)和固定效应预测变量(data
)的Dataset
- 选择调参参数,例如使用函数
gpb.grid.search.tune.parameters
- 训练模型
- 进行预测和/或解释训练好的模型
接下来,我们逐步介绍这些要点。