Press "Enter" to skip to content

帕累托、幂律和厚尾

他们在统计学中没有教你的东西

一只黑天鹅。来自Canva的图像

统计学是数据科学和分析的基础。它为我们提供了一个强大的工具箱,可以客观地回答复杂的问题。然而,当应用于特定类型的数据——幂律时,我们喜爱的许多统计工具变得无用。

在本文中,我将提供一个适合初学者的幂律指南,并描述使用传统统计方法分析它们时的3个主要问题。

目录

  1. 背景——高斯分布、帕累托的80-20规则、幂律以及重量和财富之间的区别。
  2. STAT 101的3个问题——您需要(很多)更多的数据。
  3. 脂肪尾巴——避免争议并量化高斯和帕累托之间的差距。

称量咖啡师

自然界中的许多量 tend to clump around a typical value。例如,如果您坐在一家(繁忙的)咖啡店里,测量进出的所有咖啡师和顾客的重量,您将(最终)观察到类似下面的图案。

示例高斯分布。技术说明:当测量成年人体重时,每个性别都会出现类似高斯分布的分布。作者提供的图像。

这个图案是高斯分布的一个示例,您可能在STAT 101或商业统计学中遇到过。高斯分布的美妙之处在于我们可以使用仅仅一个单独的数字——平均数——来捕捉底层事物(例如咖啡师的体重)的大部分基本信息。

进一步来说,通过像标准差和方差这样的度量,我们可以获得更多的信息,用来描述数据的分布是如何扩展的。

这些概念是每个人在统计学入门中学到的,它们给了我们一种强大的分析数据的方式。然而,并不是我们关心的所有量都具有围绕典型值聚集的这种定性特征。

帕累托定律(80-20法则)

您可能听说过所谓的“80-20法则”,其标语是“80%的销售额来自于20%的顾客”。然而,这个想法并不源自于销售和营销,而是源于维尔弗雷多·帕累托对意大利土地所有权的研究(约1890年)[1]。

帕累托观察到意大利约80%的土地归约20%的人口所有。事实证明,这个简单的观察结果表明了与我们所熟知和喜爱的高斯分布非常不同的统计性质。

换句话说,“80-20法则”是帕累托分布的结果。这在下面的图中有所说明。

帕累托分布,其中20%的人口占据了80%的数量。作者提供的图像。

高斯分布和帕累托分布之间的关键区别在于,帕累托分布没有一个我们可以用来有效概括分布的“典型值”。

换句话说,知道一个意大利男人的平均体重(~175磅),可以让你对下次去罗马的旅行有个好的预期,但是知道一个意大利城市的平均人口(~7,500)是无用的

幂律分布

帕累托分布是一类称为幂律分布的更广泛分布的一部分。我们可以用下面的方式定义幂律分布[2]。

幂律分布类的定义[3]。作者提供的图像。

其中,PDF()表示随机变量X的概率密度函数,x是X的一个特定值,L(x)是一个具有域[x_min, ∞]的缓慢变化的正函数,x_min是幂律成立的最小值(即对于x<x_min,PDF(x)=0),而α是一个数值(通常在2和3之间)。

不同α值的幂律分布示例。请注意:大约α=1.16意味着80-20法则。作者提供的图像。

从上面的图表中可以看到,幂律分布在质量上与高斯分布有着本质的不同。这形成了一种高斯状和帕累托状分布之间的一种二分法。换句话说,高斯分布和幂律分布提供了概念上的锚点,用于 qualitatively 对现实世界中的事物进行分类。

Mediocristan 和 Extremistan

作者纳西姆·尼古拉斯·塔勒布通过他称之为MediocristanExtremistan两个类别,描述了高斯状和帕累托状事物之间的这种二分法。

Mediocristan是高斯状事物的领域。其公民的一个基本属性是单个观测不会对总体统计数据产生显著影响[3]。例如,假设你在去罗马的旅行中称量了每位在斗兽场的游客的体重,并计算了平均体重。如果我们加上地球上最重的意大利人,平均值基本不会改变(+0.5%)。

在这个概念景观的另一侧是Extremistan,在这里我们看到了相反的统计属性。换句话说,在Extremistan中,一个单独的观测结果可以(而且通常会)对总体统计数据产生影响。考虑同样在斗兽场的游客,但不是测量他们的体重,而是询问他们的净资产并计算平均值。与以前不同,如果我们将世界上最富有的意大利人,乔瓦尼·费雷罗(巧克力+榛子家族)添加到样本中,这个平均值将发生巨大变化(+2500%)。

为了更好地理解每个类别,考虑下面的图像中列出的示例。

Mediocristan和Extremistan的物品,分别[3]。作者提供的图像。

正如你所看到的,Extremistan中的帕累托状物体并不是一个小的或琐碎的集合。实际上,我们关心的许多事物都像我们在统计学101中学习的高斯曲线。

虽然这可能听起来过于技术化和教条,但是使用我们熟悉的统计技术和直觉来分析由Extremistan生成的数据存在重大限制,甚至(在某些情况下)会有显著风险。

STAT 101思维的三个问题

正如我们在罗马竞技场所见,从Mediocristan(例如体重)生成的数据与从Extremistan(例如财富)生成的数据具有相反的性质。

使用STAT 101的技术来分析幂律(即来自Extremistan的数据)的最大问题之一是平均值、标准差、方差、相关性等数量几乎没有实际意义

所有这些问题都源于一个核心问题——数据不足

在统计学中,我们学到了大数定律,它说如果我们取N个随机样本,样本均值将在N → ∞时接近真实均值。这对于任何分布(有限均值的分布)都成立,无论是高斯分布、幂律、均匀分布,无论你喜欢哪个。

然而,事实证明,对于某些分布,这种渐近行为发生得比其他分布慢(例如幂律比高斯分布慢)。并且在实践中,我们(必然)只能拥有有限的数据集,这可能会导致问题。在这里,我将重点介绍其中的3个问题。

问题1:平均值没有意义(以及许多其他指标)

每当我们想要比较两组值时(例如4月销售额与5月销售额,洛杉矶和纽约的交通事故,对照组和治疗组的病患结果),我们经常计算一个平均值。这为我们提供了一种将多个值压缩成一个代表性数字的直观方法。

对于遵循漂亮的高斯分布的数据,这在小样本量(N=约10)中可以准确估计平均值,工作得非常好。然而,当处理遵循幂律分布的数据时,这种方法将失效

下面的图表比较了当样本量增加时,高斯分布和幂律分布的样本均值。分别对应于N=100、N=1,000和N=10,000。幂律和高斯样本均值分别以橙色和蓝色绘制。

三个不同样本量的样本均值收敛性。作者提供的图片。

可以看出,幂律样本均值比高斯样本均值更为不稳定(且偏倚性更强)。即使将样本量增加到N=100,000,幂律的准确性仍然远远不如高斯分布在N=100时的准确性。这在下图中展示。

虽然均值在N=1,000,000时有所稳定,但仍明显偏倚与高斯分布相比。作者提供的图片。

这种不稳定的行为不仅局限于均值,也适用于许多常用的统计量。下面给出了中位数、标准差、方差、最小值、最大值、1st和99th百分位数、峰度和熵的类似收敛图。

在3个样本量上的其他指标收敛图。由上至下:中位数、标准差、方差、最小值、最大值、第1个和第99个百分位数、峰度和熵。作者提供的图片。

可以看到,某些指标比其他指标更稳定。例如,中位数、最小值和百分位数相对较稳定。而标准差、方差、最大值、峰度和熵似乎无法得出一个确定的数字。

在这个后一组中,我想强调最大值,因为这个数量在小样本中可能会收敛,但是随着N的增大,它可以突然增加一个数量级(如N=10,000的图表所示)。这是特别危险的,因为它会导致一种虚假的可预测性和安全感。

为了将其与现实世界联系起来,如果基础数据是由大流行造成的死亡人数,过去100年中最大的大流行病将比过去1,000年中最大的大流行病小10倍。

例如,过去100年中最致命的大流行病是西班牙流感(约5000万人死亡)[4],因此如果大流行病的死亡人数遵循幂律分布,那么我们可以预计在未来1,000年内将有5亿人死于大流行病(对于这个晦暗的例子,很抱歉)。

这突显了来自“极个别统计”数据的关键特点,即罕见事件驱动了总体统计数据。

然而,这并不仅仅局限于此处提出的统计指标。罕见事件的重要性还影响了我们有效进行预测的能力。

问题2:回归不可行

回归归纳为基于过去数据进行预测。然而,正如我们在问题1中看到的那样,当处理幂律分布时,我们可能没有足够的数据来准确捕捉真实的统计数据。

当使用α ≤ 2的幂律分布变量进行回归时,这一点会更加恶化。这是因为α ≤ 2意味着分布具有无穷大的方差,这破坏了流行的回归方法(例如最小二乘回归)的一个关键假设。

然而,在实践中使用数据时,我们永远不会计算出无穷大的方差(数据必然是有限的)。这引发了与问题1类似的问题:随着收集更多数据,结果可能看起来稳定,但无法保持。

换句话说,在开发模型时,你的R²可能看起来很好,但是随着样本量的增加和接近实际的R²=0的值,它会迅速恶化。

我们可以通过一个(人造的)例子来了解这一点。假设我们有两个变量X和Y,它们之间是线性关系(即Y = mX + b),其中X是服从正态分布的,具有满足幂律分布的附加噪声项。当我们对一个小样本量(N=100)进行回归时,拟合效果看起来非常好。

关于具有满足幂律分布的附加噪声的预测器的线性回归拟合,适用于小样本量(N=100)。作者提供的图像。

然而,随着我们收集更多数据(N=100,000,000),R²会逐渐下降到实际值(即R²=0)。

随着样本大小的增加,R²逼近实际值(即R²=0)。作者提供的图像。

问题3:概率与回报的分歧

到了这一点,你可能会想,“肖..这有什么大不了的?就算我的模型无法预测一些罕见事件又怎样?大部分时间它是准确的。”

我同意你的观点。当处理极个别统计中的数据时,大部分时间应该是正确的,因为大部分数据不在尾部。然而,在预测结果和做决策时,概率只是其中一半的故事。

故事的另一半是回报。换句话说,关键不仅仅是你的正确(错误)的频率,还有当你正确(错误)时会发生什么。

例如,如果提供一种每天都99.9%有效但有0.1%致命风险的多种维生素,您可能会选择其他品牌(或者吃更健康的食物)。

在处理“幂律”和“80-20规则”时,仅仅依赖概率来做决策是特别有害的。考虑以下商业案例。

假设我们有一家软件公司,提供3种产品:1)带广告的免费版,2)高级版,3)企业版,每个产品的客户和收入分布如下表所示。

每个产品的客户和收入分布。图片作者:自己

该公司希望推出一个可以将处理时间加快50%的更新。作为一家前沿的数据驱动技术公司,他们调查了活跃用户,发现95%的客户喜欢更新后的软件。有了数据后,该公司批准了软件更新。

然而,六周后,公司陷入混乱,因为收入下降了50%。

事实证明,更新后有3位客户停止使用该服务,因为更新删除了他们使用案例中至关重要的旧数据集成。但这些不仅仅是普通客户。他们是公司的前三名客户(约占收入的50%)(除去他们的定制销售增值服务)。

当只关注概率(95%的客户喜欢更新)时,这就是一个(致命的)错误。故事的寓意是,当处理来自极端情况的稀有事件数据时,错误一次就可能抵消99次正确的结果(甚至更多)。

生成图表的代码如下:

YouTube-Blog/power-laws主要在ShawhinT/YouTube-Blog上·

代码用于补充VoAGI的YouTube视频和博客文章。-YouTube-Blog/power-laws主要在ShawhinT/YouTube-Blog上·

github.com

包含争议的极端事件(Controversy In Extremistan)

幂律,如高斯分布,是一个理想化的数学抽象。然而,现实世界是混乱的,并且很少(如果有的话)完全符合我们美丽而精确的构造。这引发了一些关于某个分布是否真正符合幂律的争议。

争论的一点是财富是否符合幂律(如帕累托的研究所建议)或仅仅是 对数正态分布 [5]。

有人可能会认为这其中的争议可以通过观察到对数正态分布在低标准差时像高斯分布,在高标准差时像幂律分布来解释 [2]。

然而,为了避免争议,我们可以将注意力从某个给定数据是否符合幂律转移到厚尾

尾厚度-测量在中庸之地与极端事件之间的空间

尾重是一个比帕累托和幂律分布更一般的概念。我们可以这样理解,“尾重”是罕见事件对分布的聚合统计数据的影响程度。从这个角度看,尾重可以从不尾重(如高斯分布)到非常尾重(如帕累托80-20)的谱上存在。

这直接映射到前面讨论过的中庸之地与极端事件的概念。下图展示了这个概念上不同分布的可视化 [2]。

中等斯坦和极端斯坦地图。注意:由于尾部厚度存在于一种光谱中,将一个分布标记为“尾厚”或否是有些主观的。图像由作者提供。

虽然没有精确的尾厚度测量方法,但我们可以在实践中使用许多度量和启发式方法来了解给定分布在中等斯坦和极端斯坦地图上所处的位置。以下是一些方法。

  • Power Law-iness:使用功率法尾指数α—— α值越低,尾部越厚[2]
  • 非高斯性:峰度(对于功率法,α ≤ 4时会失效)
  • 对数正态分布的方差
  • 塔勒布的κ度量方法[6]

要点

尾厚数据的核心挑战在于可能没有足够的数据准确捕捉其潜在的统计特性。这给数据专业人员留下了一些要点。

  • 绘制分布图,例如直方图、概率密度函数和累积分布函数
  • 问问自己——这些数据来自中等斯坦还是极端斯坦(或者介于两者之间)
  • 在构建模型时,问问自己——正确预测的价值和错误预测的代价是多少?
  • 如果使用(非常)尾厚的数据,请不要忽略罕见事件。相反,找出如何利用它们(例如,您能否为您最顶级的1%客户推出一项特别促销活动以提升业务?)

重新绘制图表的代码可以在此处找到。

资源

联系我我的网站 | 预约通话 | 向我提问

社交媒体YouTube 🎥 | 领英 | 推特

支持给我买杯咖啡 ☕️

数据企业家

一个为数据领域的企业家提供支持的社区。👉 加入Discord!

VoAGI.com

[1] 帕累托原则。 (2023年10月30日)。在维基百科中。 https://en.wikipedia.org/wiki/Pareto_principle

[2] arXiv:2001.10488 [stat.OT]

[3] 塔勒布(Taleb,N.N.)(2007)。《黑天鹅:高度不确定性的影响》。纽约: 席尔兰庄园。

[4] https://www.archives.gov/exhibits/influenza-epidemic/

[5] arXiv:0706.1062 [physics.data-an]

[6] Taleb, N. N. (2019). 需要多少数据?尾部重尾度的操作性、预渐近度量。《国际预测学杂志》,35(2),677–686。https://doi.org/10.1016/j.ijforecast.2018.10.003

Leave a Reply

Your email address will not be published. Required fields are marked *