为什么相关性不等于时间序列的因果关系
背景
在时间序列分析中,了解一个序列是否影响另一个序列是很有价值的。例如,对于商品交易员来说,知道商品A的增加是否会导致商品B的增加是有用的。最初,这种关系是使用线性回归来衡量的,然而在20世纪80年代,克莱夫·格兰杰和保罗·纽博尔德表明这种方法得出的结果是不正确的,尤其是对于非平稳时间序列。因此,他们提出了协整的概念,这使得格兰杰获得了诺贝尔奖。在本文中,我想讨论协整的需求和应用,以及为什么这是数据科学家应该了解的重要概念。
虚假相关性
概述
在讨论协整之前,让我们先讨论一下它的需求。历史上,统计学家和经济学家使用线性回归来确定不同时间序列之间的关系。然而,格兰杰和纽博尔德表明,这种方法是不正确的,并导致了一种称为虚假相关性的现象。
虚假相关性是指两个时间序列可能看起来相关,但实际上它们之间缺乏因果关系。这是经典的“相关性不意味着因果关系”的说法。这是危险的,因为即使统计测试也可能显示存在因果关系。
示例
下面是一个虚假关系的示例:

这里我们有两个时间序列A(t)和B(t),分别作为时间的函数(左图)和相互之间的关系图(右图)绘制。从右图的图中可以看出,系列之间存在一些相关性,这由回归线所示。然而,通过观察左图,我们可以看到这种相关性是虚假的,因为B(t)持续增加,而A(t)波动不定。此外,两个时间序列之间的平均距离也在增加…