Press "Enter" to skip to content

高基数分类变量的混合效应机器学习 —— 第二部分：GPBoost库

Published July 19, 2023 by 四海吧

使用真实数据在Python和R中展示GPBoost的演示

高基数分类数据的插图：不同类别变量水平的箱线图和原始数据（红色点） — 图片来源作者 — 高基数分类数据的插图：不同类别变量水平的箱线图和原始数据（红色点） — 图片来源作者

高基数分类变量是指在数据集的样本量相对较小的情况下，不同水平的数量较大的变量。在本系列的第一部分中，我们对不同的机器学习方法进行了实证比较，发现随机效应是处理高基数分类变量的有效工具，而GPBoost算法在预测准确度上表现最好 [Sigrist, 2022, 2023]。在本文中，我们演示了如何使用GPBoost算法，结合Python和R包中的GPBoost库，对高基数分类变量进行处理。本演示中使用的GPBoost版本为1.2.1。

目录

∘ 1 简介∘ 2 数据：描述、加载和样本拆分∘ 3 训练GPBoost模型∘ 4 选择调参参数∘ 5 预测∘ 6 解释∘ 7 进一步建模选项 · · 7.1 分类变量与其他预测变量之间的交互作用 · · 7.2 （广义）线性混合效应模型∘ 8 结论和参考文献

1 简介

应用GPBoost模型涉及以下主要步骤：

定义一个GPModel，其中指定以下内容：— 随机效应模型：通过group_data和/或高斯过程gp_coords进行分组随机效应— likelihood（=在固定效应和随机效应条件下响应变量的分布）
创建一个包含响应变量（label）和固定效应预测变量（data）的Dataset
选择调参参数，例如使用函数gpb.grid.search.tune.parameters
训练模型
进行预测和/或解释训练好的模型

接下来，我们逐步介绍这些要点。

Published in 四海

Leave a Reply

Web Analytics