Press "Enter" to skip to content

马尔可夫不等式和比纳伊–切比雪夫不等式

“La Barrière de Clichy. Défense de Paris, le 30 mars 1814” (The Clichy Barrier. Defense of Paris, March 30, 1814) (Artist: Horace Vernet) (Public domain artwork)

深入探讨两个边界的含义以及导致它们被发现的引人注目的一系列事件

宇宙很少告诉你某事根本无法做到。不管你有多聪明,有多么丰富的资金,或者你在宇宙的哪个角落,当宇宙说“不可能”时,就没有其他办法了。在科学中,这种不可能通常被表达为某个数量值的限制。一个著名的例子是阿尔伯特·爱因斯坦在1905年发现,当你在真空空间中释放一个光子时,确实没有任何东西能赶上它。已经发现并证明了数百个这样的限制或边界。它们共同构成了对现实本质的一种限制。

马尔可夫不等式和比奈梅-切比雪夫不等式就是这样的两个边界,它们深刻地影响了我们对自然界限制随机事件频繁发生的认识。

马尔可夫不等式的发现和证明归功于杰出而充满激情的俄罗斯数学家安德烈·安德烈耶维奇·马尔可夫(1856年-1922年)。

A. A. Markov (CC0)

比奈梅-切比雪夫不等式的功劳归于两位人物:概率论巨匠和马尔可夫的导师——可敬的帕夫努蒂·切比雪夫(1821年-1894年),以及切比雪夫的法国同事和朋友伊雷尼-朱尔·比奈梅(1796年-1878年)。

Bienaymé (Left) and Chebyshev (CC0)

这些不等式的发现有着非凡的历史,尤其是比奈梅-切比雪夫不等式,简单地介绍数学而不涉及产生它的人物和故事将是不足够的。我将尝试揭示这些背景故事。通过这样做,我将为解释这些不等式的数学基础设置背景。

我将从马尔可夫不等式开始,然后展示比奈梅-切比雪夫不等式是如何通过在马尔可夫不等式中进行一些简单的变量替换而产生的。为了额外的愉悦,我们将赢得我们的大奖——大数定律(WLLN)的证明——通过展示如何在比奈梅-切比雪夫不等式中进行另一组变量替换,几乎毫不费力地得出大数定律。

马尔可夫不等式

马尔可夫这个名字让人想起“马尔可夫链”、“马尔可夫过程”和“马尔可夫模型”。严格来说,马尔可夫链是A. A. 马尔可夫创造的。但马尔可夫对数学的贡献远不止于马尔可夫链和概率论。作为一位多产的研究者,马尔可夫发表了超过120篇论文,涵盖了数论、连分数、微积分和统计学等广泛的思想领域。顺便提一下,马尔可夫的论文大多发表在俄语期刊上,与他的博士导师P. L. 切比雪夫形成鲜明对比,后者在西欧,特别是法国出版物上发表了大量论文。

在1900年,马尔科夫很可能处于职业生涯的巅峰期,他出版了一本关于概率的开创性著作,题为《概率的计算方法》。

马尔科夫的书《概率的计算方法》(Ischislenie Veroiatnostei)的1900年版(互联网档案馆。CC0)

该书经历了4个版本和一本德语版。为了纪念大数定律(WLLN)200周年,马尔科夫故意在1913年出版了他的书的第三版。第三版中的大量材料都专门讲解了WLLN。但是隐藏在引理中的是马尔科夫证明了一条定律,这个定律对于统计学领域来说如此重要,以至于经常被用作WLLN本身证明的起点。

马尔科夫证明的是以下内容:

想象任何非负随机变量XX可以代表像早晨醒来时间这样的平凡事物,也可以代表像星系中的星星数量这样的巨大事物。 X可以是离散的或连续的。 X可以具有任何类型的概率分布。简而言之, X可以代表任何非负随机现象。现在选择一个值,在X的范围内任意选择。让我们将这个值表示为’a’。马尔科夫表明,自然界对于观察到大于或等于你选择的值’a’的X的概率有一个上限。而且这个上限随着’a’的增长而缩小。你选择的值’a’越大,观察到另一个超过’a’的值’b’的概率就越低。换句话说,自然界厌恶异常值。

为了说明这一点,看一下下面的图。它显示了美国最富裕的20个州的县人均个人收入的频率分布。

美国最富裕的20个州的县人均个人收入的直方图(作者提供的图像)(数据来源:美国经济分析局通过版权政策)

在这里,随机变量X是随机选择的县的人均收入。

现在让我们使用人均收入的某个阈值’a’。在下面的图像面板中,红色区域表示X ≥ a,其中a = $50000、$70000和$80000。

随着'a'的增加,P(X ≥ a)减小(作者提供的图像)

概率P(X ≥ a)是红色区域面积与直方图下总面积的比值。很容易看出,这个概率P(X ≥ a)随着’a’的增长而减小。它与’a’成反比。马尔科夫的定理对这个概率施加了一个与’a’的值成反比的上限。而且这种关系不受X的分布影响。

但这还不是马尔科夫展示的全部。

作为同一个不等式的一部分,马尔科夫还表明X的均值直接影响观察到X ≥ a的概率X的均值越大,这个概率的上限就越高,反之亦然。换句话说,随着X的概率质量向X范围的上端移动,P(X ≥ a)的上限也增加。相反,如果X的概率质量向下端移动,使其“底部重”,观察到较大值的X的概率就减小。

其中一些听起来可能像是日常常识,但马尔可夫的才华在于建立了“a”、“P(X>=a)”和X的均值(也称为期望值)之间的数学精确关系,记作E(X)。他证明了以下结论:

Markov’s inequality (Image by Author)

马尔可夫不等式的证明

有许多方法可以证明马尔可夫不等式。我将描述一种简单的技术,无论X是离散的还是连续的,都适用。只要X是非负的。

与之前一样,我们使用感兴趣的某个阈值“a”进行工作。

现在让我们定义一个随机变量I,当 0 ≤ X < a 时,I = 0,当 X ≥ a 时,I = 1。在统计术语中,I 被称为指示变量。

考虑当X ≥ a 时的情况。将两边都乘以I

XI ≥ aI

X ≥ a 时,I = 1。所以XI = X

因此,

X ≥ aII = 1(让我们记住这个结果)。

由于X是非负的,0 ≤ X,并且对于某个正数“a”,X可以小于“a”,也可以大于或等于“a”。我们已经考虑了X大于或等于a的情况。所以让我们考虑0 ≤ X < a的情况。

根据I的定义,当X < a时,I = 0。

因此,aI = a0 = 0

由于X被假设为非负,即X > 0,并且aI = 0,所以X ≥ aI

因此,无论I = 1还是I = 0,aI <= X

让我们在这个不等式的两边应用期望运算符E(.):

E(aI) <= E(X)

将常数“a”拿出来:

aE(I) <= E(X)

让我们研究一下E(I)。随机变量I只能取两个值:0和1,对应于X < a 和 X≥ a 的情况。每个事件的概率分别是P(X < a)和P(X >= a)。所以,

E(I) = 0P(X < a) + 1P(X >= a) = P(X >= a)

将这个结果代入aE(I) <= E(X),我们有:

aP(X >= a) <= E(X)

因此:

P(X >= a) <= E(X)/a,这就是马尔可夫所证明的不等式。

Bienaymé–Chebyshev不等式

Bienaymé–Chebyshev不等式表明,观察到一个随机变量离其均值相差‘a’个单位的概率受到类似马尔可夫不等式的限制。换句话说,自然界对概率P(|X — E(X)| >= a)施加了上界。而这个上界与a²成反比,并且与X相对于其均值的离散程度成正比,换句话说,与X的方差成正比。符号上,Bienaymé–Chebyshev不等式可以表示如下:

Bienaymé–Chebyshev不等式(作者:Author)

与马尔可夫不等式一样,Bienaymé–Chebyshev不等式的伟大之处在于它对于X的概率分布不做任何假设。 X可以是正态分布的,指数分布的,也可以是伽马分布的。 X可以是任意形状的。 Bienaymé–Chebyshev概率界仍然牢不可破。

Bienaymé–Chebyshev不等式的历史简介

引人入胜的历史为Bienaymé–Chebyshev不等式的发现提供了支持。首先,朱尔斯·比纳梅的名字之所以在这个不等式中位于契比雪夫之前,是有原因的。

1853年,法国数学家伊雷尼-朱尔斯·比纳梅发表了一篇在法国科学院论文集中成为最重要的论文之一的论文。比纳梅的论文表面上是关于他对拉普拉斯最小二乘法的处理。然而,作为这项工作的一部分,他最终陈述并证明了Bienaymé–Chebyshev不等式(那个时候只能称为Bienaymé不等式,因为契比雪夫并没有出现在这个问题中)。但是,比纳梅忠于他谦虚的性格,并且由于他完全专注于拉普拉斯最小二乘法,未能充分强调他的发现的重要性,所以这个发现基本上未被注意到。因此,如果帕夫努蒂·利沃维奇·契比雪夫不是生来就有一条萎缩的腿,概率论中最重要的结果之一可能就会被荒废。

1821年的一个初夏日,当25岁的比纳梅仍在法国财政部担任公务员时,帕夫努蒂·利沃维奇·契比雪夫在俄罗斯帝国圣彼得堡以南100英里的一个村庄出生。契比雪夫是九个孩子中的一个,并且从小就表现出在力学和数学方面的非凡才能。契比雪夫的父亲是一位陆军军官,他在拿破仑在1812年对俄罗斯的深度灾难性进攻中击退拿破仑。在历史上有着一些有趣的讽刺的是,就在两年后,拿破仑撤退之后的混乱局势中,朱尔斯·比纳梅将帮助拿破仑抵御进军巴黎的俄罗斯、奥地利和普鲁士军队。拿破仑当然彻底未能保护巴黎,而是被流放到厄尔巴岛。

“La Barrière de Clichy. Défense de Paris, le 30 mars 1814”(图片作者:Horace Vernet)(公共领域艺术作品)

所有这些历史都发生在Pafnuty Lvovich出生之前。但考虑到他的军事血统和家族传统,如果不是他天生的萎缩腿,P.L. Chebyshev很有可能会像他的一些兄弟姐妹一样加入沙皇的军队,概率的历史可能会完全不同。但Chebyshev对数学的接触以及后来对俄罗斯学术界的介绍并不是他与Bienaymé结识的唯一催化剂。而且,他对后者在Bienaymé-Chebyshev不等式中的贡献的支持也是如此。

作为一个孩子,Chebyshev在家中接受法语教育。在他的职业生涯早期,他似乎意识到如果他希望他的作品在他的祖国之外被阅读,他必须在19世纪的数学研究全球中心——巴黎——出名。

在每一个机会,Chebyshev都会前往法国和其他西欧国家的首都,并且他将他的80篇论文中的近一半发表在西欧期刊上。其中许多出现在由法国数学家Joseph Liouville编辑的《纯粹与应用数学杂志》上。正是在他1852年的欧洲之旅中,Chebyshev结识了Bienaymé,这是一种互利的友谊,使Chebyshev获得了与许多欧洲科学家和出版商的联系,并且在主要的法国和俄罗斯期刊上给予了Bienaymé在数学上应得的宣传。

当然,一个关键的工作是Bienaymé在1853年发现他名字所带来的不等式。这使我们回到了对这个不等式的研究。

Bienaymé在他1853年的论文中实际证明了以下内容:

假设你从一个均值和方差分别为μ和σ²的总体中抽取一个大小为N的随机样本。让X_bar是你的随机样本的均值。顺便说一句,可以证明样本均值X_bar本身是一个随机变量,它的期望值和方差分别为μ和σ²/N。如果这让你感到困惑,放心,很快我会展示如何推导出样本均值的期望值和方差。同时,回到手头的话题,Bienaymé所展示的是以下内容:

Bienaymé在1853年证明的结果(作者提供的图片)

现在,你可能想知道,Chebyshev是在何时以何种方式与Bienaymé的发现有关,以至于Chebyshev的名字与这个不等式联系在一起。

巧合的是,Bienaymé发表不等式的十四年后,Chebyshev在Joseph Liouville的期刊1867年第一期上发表了一个不同版本的这个不等式。请记住,这是在Google和CiteSeer之前,电话也没有普及的时代。因此,可以说当时的科学家对“先前的工作”并不完全了解,这几乎没有揭示出问题的规模。

“Journal de Mathématiques Pures et Appliquées”(《纯粹与应用数学杂志》)的目录,Liouville,(2)12 158–176.(1867)(公共领域的问题)

值得赞扬的是,Chebyshev在他于1874年发表的一篇论文中将这个不等式的发现完全归功于Bienaymé:

“在我的名为《Des valeurs moyennes》的笔记中所找到的Bernoulli定律的简单而严格的证明,只是从Bienaymé先生的方法中轻易推导出的结果之一,这个方法使他本人得以证明一个关于概率的定理,从而Bernoulli定律立即得到。”

在接下来的几年里,后来被称为Chebyshev不等式(或更准确地说,Bienaymé — Chebyshev不等式)的版本简单地适用于任何具有期望值E(X)和有限方差Var(X)的随机变量X。

Bienaymé — Chebyshev不等式表明,对于任何正数‘a’,概率P(|X – E(X)| ≥ a)有如下边界:

The Bienaymé–Chebyshev inequality (Image by Author)

Bienaymé — Chebyshev不等式的证明

在他1913年的《概率论》一书第三版中,Markov证明的不等式(以他的名字命名)经常被用来证明Bienaymé — Chebyshev不等式。以Markov的不等式为起点,证明结果非常简单。我们按照以下步骤进行证明:

让我们考虑一个具有均值E(X)的随机变量X。现在,让我们定义另一个随机变量Z = (X – E(X))²。平方项确保Z是非负的,使我们能够将Markov的不等式应用于Z。假设阈值Z的值为a²。观测到Z的值满足或超过a²的概率是P(Z >= a²)。将Markov的不等式应用于Z和a²,得到如下结果:

The upper bound on P(Z ≥ a²) using Markov’s inequality (Image by Author)

从上述表达式出发,我们可以得到Bienaymé-Chebyshev不等式,如下所示:

Derivation of the Bienaymé-Chebyshev inequality using Markov’s inequality as the starting point (Image by Author)

式(3)是Bienaymé-Chebyshev不等式(或简称Chebyshev不等式)。

与任意阈值‘a’一起工作相比,将‘a’表示为X的标准差σ是有用的,如下所示:

The Bienaymé-Chebyshev inequality expressed in terms of the standard deviation of X (Image by Author)

上述证明还为1853年Bienaymé在他的出版物中展示的原始结果开辟了一条直接路径,即以下内容:

Bienaymé在1853年证明的结果(作者提供的图像)

从方程(2)开始,用样本均值X_bar代替X,用k²σ²代替a²,我们得到Bienaymé在约1853年证明的结果如下:

Bienaymé在1853年证明的结果的推导(作者提供的图像)

方程(4)和(4a)向我们展示了一个有趣的结果。它们表明,遇到离均值至少k个标准差的观察值的概率在上方有界,并且这个上界与k²成反比。

换句话说,遇到远离均值的值是非常不可能的。

以这种方式表达,Bienaymé–Chebyshev不等式给了像“如果听起来太好以至于不真实,那可能就是如此”这样的格言以数学上的解释,或者像科学家们最喜欢的“非凡的声明需要非凡的证据”。

为了说明这个不等式的运作,考虑以下一组数据,它是芝加哥地区每年1月1日记录的平均日温度。这组数据包括从1924年到2023年的100个观测值:

芝加哥地区1924年至2023年每年1月1日的平均日温度(作者提供的图像)(数据来源:NWS,根据公共领域许可证)

图中黑色虚线表示样本均值为24.98华氏度。彩色水平线表示数据样本标准差的加/减1.25、1.5、1.75和2倍的温度值。这些标准差线给我们一个感觉,大多数温度可能在其中。

应用Bienaymé–Chebyshev不等式,我们可以确定概率P(|X — E(X)| ≥ kσ)的上界,其中X表示随机选择的某年1月1日观察到的平均温度。E(X) = 24.98华氏度,σ = 10.67682华氏度,k = 1, 1.25, 1.5, 1.75和2.0。以下表格列出了这些概率上界在1/k²列中:

对于芝加哥温度数据集,使用Bienaymé–Chebyshev不等式计算得出的概率P(|X-E(X)| ≥ kσ)的上界,以及数据样本中对应的观测概率(作者提供的图像)

表中的最后一列显示了在数据样本中观察到这种偏差的实际概率。数据样本中实际观测到的值完全在Bienaymé–Chebyshev不等式生成的概率上界之内。

你可能已经注意到,Bienaymé–Chebyshev不等式生成的概率界限非常宽。例如,当k=1时(对应于事件在均值的1个标准差范围内),该不等式计算的概率上界为1/1² = 1.0,即100%。这使得这个特定的界限几乎没有用处。

然而,对于所有k > 1的值,该不等式非常有用。它的有用之处还在于它不对随机变量的分布做任何特定的假设。实际上,它在适用性上更进一步。虽然马尔可夫不等式要求随机现象产生严格非负的观察结果,但你会注意到,Bienaymé–Chebyshev不等式对于X并没有这样的假设。

Bienaymé–Chebyshev不等式还为我们提供了一个简单明了的证明弱大数定律的方法。事实上,1913年,马尔可夫在他的概率论书中使用这个不等式证明了弱大数定律的证明,而且这个证明与今天许多教科书使用的证明基本上是相同的。

弱大数定律(及其证明)

假设你从一个理论上无限大的人群中收集了一个随机样本。样本大小为N。这个随机样本有一个样本均值X_bar。由于你只处理样本而不是整个人群,所以你的样本均值可能与真实的人群均值μ相距一定距离。这就是你的样本均值的误差。你可以将这个误差的绝对值表示为|X_bar — μ|。

弱大数定律说,在你选择的任何正容差ϵ下,样本均值误差大于ϵ的概率将随着样本大小N趋于无穷而趋于零。无论你选择多小的容差ϵ,当样本大小N趋于无穷时,P(|X_bar — μ| >= ϵ)将趋于零。

弱大数定律(图像作者)

弱大数定律有着悠久的发现历史,可以追溯到三个多世纪前的数学大家们,从1713年的雅各布·伯努利开始,包括德·莫伊弗、拉普拉斯、拉克罗瓦、泊松以及我们的朋友Bienaymé和Chebyshev等人都为其发展做出了贡献。而且多亏了Bienaymé–Chebyshev不等式,弱大数定律的证明就像水顺着山坡流动一样轻松。

弱大数定律的证明

和统计学中的许多事物一样,我们开始证明是从一个人群中随机抽取一个大小为N的样本。让我们将这个样本表示为X1, X2, X3, …, XN。把X1, X2, X3, …, XN想象成一组N个变量,就像一组N个槽,每个槽在抽取样本时都会被随机选择的值填充。因此,X1, X2, X3, …, XN本身就是随机变量。此外,由于每个X1, X2, X3, …, XN获得的随机值互相独立,但都来自样本人群,它们是独立同分布的(i.i.d.)随机变量。

对于任何给定的随机选择的样本,样本均值X_bar可以计算如下:

样本均值(图像作者)

由于抽取另一个随机样本将产生不同的样本均值,抽取第三个样本将产生另一个样本均值,以此类推,样本均值X_bar本身是一个具有自己的均值和方差的随机变量。让我们计算X_bar的均值。

样本均值的期望值推导(作者提供的图像)

让我们也计算样本均值的方差。

样本均值的方差是总体方差除以N(作者提供的图像)

现在让我们将Bienaymé–Chebyshev不等式应用于样本均值X_bar,如下所示:

利用Bienaymé–Chebyshev不等式证明弱大数定律(作者提供的图像)

这么深刻、如此广泛、对统计科学领域如此核心的弱大数定律,竟然有如此简单的证明,这是自然界的一种荒谬之处,让人不禁感叹。无论如何,就是这样。

马尔可夫不等式和Bienaymé–Chebyshev不等式以及弱大数定律,共同构成了大量统计科学牢固基础。例如,当您训练统计模型(或神经网络模型)时,训练算法最好遵守弱大数定律。如果不遵守,系数估计值不能保证收敛到真实的总体值。这使得您的训练技术基本上没有用处。弱大数定律还在另一个重要结果——中心极限定理的证明中发挥了作用。这将成为我下一篇文章的内容。

参考文献和版权

论文

Bienaymé, I.J. (1853) Considérations à l’appui de la découverte de Laplace sur la loi de probabilité dans la méthode des moindres carrés,” (“Considerations in support of Laplace’s discovery on the law of probability in the method of least squares.”) C.R. Acad. Sci., Paris 37 309–324. Also published in “Journal de Mathématiques Pures et Appliquées” (“Journal of Pure and Applied Mathematics”), Liouville, (2) 12 158–176. (1867)

Gely P. Basharin, Amy N. Langville, Valeriy A. Naumov, “The life and work of A.A. Markov”, Linear Algebra and its Applications, Volume 386, 2004, Pages 3–26, ISSN 0024–3795, https://doi.org/10.1016/j.laa.2003.12.041.

Bru, Bernard, François Jongmans, and Eugene Seneta. “I.J. Bienaymé: Family Information and Proof of the Criticality Theorem.” International Statistical Review / Revue Internationale de Statistique 60, no. 2 (1992): 177–83. https://doi.org/10.2307/1403648.

Eugene Seneta “A Tricentenary history of the Law of Large Numbers,” Bernoulli, Bernoulli 19(4), 1088–1121, (September 2013)

数据集

美国经济分析局“县、都市和其他地区的个人收入”属于公有领域许可。

国家气象局“NOAA在线天气数据”为芝加哥地区的公有领域许可。

图片

本文中的所有图片都属于Sachin Date根据CC-BY-NC-SA版权所有,除非图像下面提到了不同的来源和版权。

感谢阅读!如果您喜欢这篇文章,请关注我,以获取有关回归和时间序列分析的技巧、指南和编程建议。

Leave a Reply

Your email address will not be published. Required fields are marked *