拓展线性回归之外的建模技能
背景
线性回归是数据科学中我们学习的最常见的算法。每个从业者都听说过它并使用过它。然而,对于一些问题来说,线性回归并不适用,我们需要对其进行“泛化”。这就是广义线性模型(GLMs)的作用,它可以为回归建模提供更大的灵活性,是数据科学家必须了解的宝贵工具。
什么是GLMs?
正如我们上面所说,GLMs可以“泛化”普通的线性回归,但是我们真正意味着什么呢?
让我们考虑更简单的线性回归模型:
其中,β是系数,x是解释变量,ε是正态分布的误差。
假设我们想要建模一个保险公司在一个小时内接到的索赔电话数量。线性回归适用于这个问题吗?
不适用!
原因如下:
- 线性回归假设错误服从正态分布,而正态分布可以取负值。然而,我们无法得到负数的索赔电话。
- 第二点是正态分布,因此线性回归是连续的。而索赔电话是整数和离散的,我们无法得到1.1个电话。
因此,线性回归模型无法正确处理这个问题。然而,我们可以将回归模型泛化为满足上述要求的概率分布。在这种情况下,将采用泊松分布(稍后详细介绍)。
GLMs提供了一个框架,描述了如何将输入与目标分布的期望输出相联系。它们有助于将许多回归模型统一到一个“数学的伞下”。
理论框架
概述
GLMs的基础依赖于三个关键要素:
- 线性预测器(系统组件)
- 链接函数(随机组件)
- 指数族