Press "Enter" to skip to content

协整与伪相关性:了解差异以进行准确分析

为什么相关性不等于时间序列的因果关系

Photo by Wance Paleri on Unsplash

背景

在时间序列分析中,了解一个序列是否影响另一个序列是很有价值的。例如,对于商品交易员来说,知道商品A的增加是否会导致商品B的增加是有用的。最初,这种关系是使用线性回归来衡量的,然而在20世纪80年代,克莱夫·格兰杰保罗·纽博尔德表明这种方法得出的结果是不正确的,尤其是对于非平稳时间序列。因此,他们提出了协整的概念,这使得格兰杰获得了诺贝尔奖。在本文中,我想讨论协整的需求和应用,以及为什么这是数据科学家应该了解的重要概念。

虚假相关性

概述

在讨论协整之前,让我们先讨论一下它的需求。历史上,统计学家和经济学家使用线性回归来确定不同时间序列之间的关系。然而,格兰杰和纽博尔德表明,这种方法是不正确的,并导致了一种称为虚假相关性的现象。

虚假相关性是指两个时间序列可能看起来相关,但实际上它们之间缺乏因果关系。这是经典的“相关性不意味着因果关系”的说法。这是危险的,因为即使统计测试也可能显示存在因果关系

示例

下面是一个虚假关系的示例:

Plot generated by author in Python.

这里我们有两个时间序列A(t)B(t),分别作为时间的函数(左图)和相互之间的关系图(右图)绘制。从右图的图中可以看出,系列之间存在一些相关性,这由回归线所示。然而,通过观察左图,我们可以看到这种相关性是虚假的,因为B(t)持续增加,而A(t)波动不定。此外,两个时间序列之间的平均距离也在增加…

Leave a Reply

Your email address will not be published. Required fields are marked *