Press "Enter" to skip to content

广义线性模型的解析

拓展线性回归之外的建模技能

Unsplash上Roman Mager拍摄的照片

背景

线性回归是数据科学中我们学习的最常见的算法。每个从业者都听说过它并使用过它。然而,对于一些问题来说,线性回归并不适用,我们需要对其进行“泛化”。这就是广义线性模型GLMs)的作用,它可以为回归建模提供更大的灵活性,是数据科学家必须了解的宝贵工具。

什么是GLMs?

正如我们上面所说,GLMs可以“泛化”普通的线性回归,但是我们真正意味着什么呢?

让我们考虑更简单的线性回归模型:

其中,β是系数,x是解释变量,ε正态分布的误差。

假设我们想要建模一个保险公司在一个小时内接到的索赔电话数量。线性回归适用于这个问题吗?

不适用!

原因如下:

  • 线性回归假设错误服从正态分布,而正态分布可以取负值。然而,我们无法得到负数的索赔电话。
  • 第二点是正态分布,因此线性回归是连续的。而索赔电话是整数和离散的,我们无法得到1.1个电话。

因此,线性回归模型无法正确处理这个问题。然而,我们可以将回归模型泛化为满足上述要求的概率分布。在这种情况下,将采用泊松分布(稍后详细介绍)。

GLMs提供了一个框架,描述了如何将输入与目标分布的期望输出相联系。它们有助于将许多回归模型统一到一个“数学的伞下”。

理论框架

概述

GLMs的基础依赖于三个关键要素:

  • 线性预测器(系统组件)
  • 链接函数(随机组件)
  • 指数族
Leave a Reply

Your email address will not be published. Required fields are marked *