Press "Enter" to skip to content

在数据驱动的世界中,你应该理解的4个重要统计概念

在现代社会中,你不需要成为统计学专家,但这里有一些基本概念你应该了解。

Photo by Anne Nygård on Unsplash

回避现实没有任何意义。数据科学,更广泛地说,是我们当前正在建设的社会的核心。

当计算机科学热潮在21世纪初爆发时,许多人注意到计算机科学将成为每个领域的一个重要组成部分。这一点被证明是正确的。各行各业的公司——医疗保健、工程、金融等——开始雇佣软件工程师从事各种形式的工作。这些领域的学生开始学习如何编写代码。

我认为新的数据科学浪潮更进一步。通过计算机科学,人们只需要雇佣软件工程师就可以摆脱困境。业务经理或销售专家不一定需要理解这些人所做的事情。

但数据科学更加广泛和全面。由于它是各个领域的综合体[1],即使对于那些可能不是日常数据科学家的人来说,它的想法也是相关的。

在本文中,我将概述四个重要的统计学概念,每个人都应该了解,无论正式职位是什么。无论你是项目经理、招聘人员,甚至是CEO,对这些概念的某种熟悉程度肯定会对你的工作有所帮助。此外,在工作环境之外,对这些概念的熟悉将使你具备在现代社会中导航所必需的数据素养。

让我们开始吧。

只是一个糟糕的大样本

当我还在读本科时,我上过一门数据科学课程,学生人数很多,近2000人。这门课程叫做《数据科学基础》,是校园中最受欢迎的课程之一,因为它旨在让不同专业的学生都能理解。它不是立即深入研究高级数学和编程,而是关注能够影响各个领域学生的高级思想。

在我们的早期讲座中,教授说了一句话,这句话至今仍然让我铭记在心,每当我从事与数据有关的任何工作时,它都会回来。她讨论了随机抽样,这是一个广义的术语,涉及以能够代表整个人群的方式选择研究人群的子集。其思想是通过研究子集来对整个人群作出结论。

她指出,拥有一个好的样本是至关重要的,因为无论进行多少数学操作和花哨的技术,都无法弥补一个实际上并不代表希望模拟的人群的子集。在提出这一观点时,她提到许多人认为,如果一个起始样本很差,那么一个合理的解决方案就是坚持使用同样的方法,但是收集更大的样本。

“然后,你只会得到一个非常大、非常糟糕的样本,”她对满是大学生的讲堂说道。

理解这个基础观点——以及它的更广泛的影响——将使你能够理解许多被人们视为理所当然的社会政治现象。为什么总统民调经常不准确?为什么一个看似强大的机器学习模型在现实世界中失败?为什么有些公司制造的产品永远不会见天?

往往答案就在样本中。

“错误”并不意味着“错误”

这个话题在涉及数据或统计的大多数课程中都是隐含的,但我在这里的讨论是受到阿尔贝托·开罗在他的优秀著作《图表如何撒谎》中对这一观点的强调。

开罗的书的前提是概述数据可视化如何被用来欺骗人们的各种方式,无论是无意识的还是恶意的。在其中一章中,开罗详细阐述了在数据中可视化不确定性的挑战,以及这本身可能导致误导性的数据可视化。

他首先讨论了统计学中的错误这个概念。他注意到一个关键点:在标准英语中,“错误”一词与“错误”是同义词,但在统计学领域并非如此。

统计误差的概念与不确定性有关。在测量和模型中几乎总会存在某种形式的误差。这与之前关于样本的观点有关。因为你没有每个你想描述的总体数据点,所以从定义上讲你会面临不确定性。如果你对未来的数据点进行预测,这种不确定性会进一步加剧,因为它们还不存在。

减少和解决不确定性是统计学和数据科学的重要组成部分,但它远远超出了本文的范围。在这里,你应该内化的主要观点是,统计结果带有一定的不确定性,并不意味着它是错误的。事实上,这很可能表明产生这些结果的人知道他们在做什么(对没有任何关于不确定性水平的统计声明应持怀疑态度)。

学会正确解读统计声明中的不确定性[2],而不是将其视为错误。这是一个重要的区别。

你不能总是“为它建立模型”

在普通人群中,似乎有一种观念,即人工智能是一种可以完成任何事情的神奇工具。随着自动驾驶汽车和逼真的虚拟助手的出现,但普遍的数据素养并没有取得类似的加速,这种心态的形成并不令人意外。

不幸的是,这与事实相去甚远。人工智能并非魔法。它在很大程度上依赖于良好的数据,如果底层数据质量不好,其结果实际上可能会非常误导人。

我曾经有一个同事被分配到一个项目中,她的任务是根据历史数据为特定目标构建一个机器学习模型。这个模型的目的是将未来的事件分类为特定类别。

只有一个问题:她没有任何数据。项目中的其他人(显然不熟悉数据科学)一直坚持说,她应该只是建立模型,即使她没有数据,因为机器学习非常强大,应该可以做到。他们没有意识到他们的要求根本不可行。

是的,机器学习很强大,是的,我们在使用它做更酷更好的任务方面越来越好。然而,就目前而言,它并不是万能的解决方案。你最好记住这一点。

数字是会撒谎的

人们经常说“数字不会撒谎”,就像撒纸屑一样。

哦,如果他们知道的话。数字实际上经常会撒谎。在某些情况下,甚至比说真话的次数更多。但它们之所以撒谎,并不是因为它们在原始形式上实际上是错误的;而是因为普通人不知道如何解读它们。

有无数的例子可以说明数字如何被扭曲、操纵、改变和转化,以支持一个人想要提出的论点。为了进一步阐明这一观点,我将介绍一个如何做到这一点的例子:在做笼统陈述时忽略潜在的总体分布。

这个例子本身有点模糊,所以让我们来看一个例子。考虑以下常常被提出给医学生的情景:

假设某种疾病在人群中每1000人中影响1人。有一种检测方法可以检测一个人是否患有这种疾病。这个检测方法不会产生假阴性(也就是说,任何患有这种疾病的人都会测试呈阳性),但假阳性率为5%(即一个人在没有患病的情况下测试呈阳性的概率为5%)。假设从人群中随机选择一个人进行检测,并且测试结果呈阳性。这个人实际上患有这种疾病的概率是多少?

乍一看,很多人给出的合理答案是95%。有些人甚至可能怀疑仅仅使用假阳性率来做出这个判断并不完全符合数学上的准确性,但他们可能仍然猜测答案在附近。

不幸的是,正确答案不是95%,也不接近。这个随机选择的人实际上患有这种疾病的概率约为2%。

大多数人偏离正确答案的原因是,虽然他们注意到了较低的假阳性率,但他们未能考虑到人群中疾病的基本流行率:只有1/1000(或0.1%)的人实际上患有这种疾病。因此,这个5%的假阳性率实际上会影响到很多人,因为他们中的很少一部分人一开始就患有这种疾病。换句话说,有很多很多机会成为假阳性。

这个问题的正式数学推导超出了本文的范围,但是如果你感兴趣的话,可以在这里看到详细解释[3]。尽管如此,你并不需要深入研究数学才能理解主要观点:一个人可以想象利用上面的情景吓唬别人,让他们相信他们对某种疾病的风险要比实际情况严重得多。仅仅通过数字往往可以被曲解和误解,以推动虚假信念。

要保持警惕。

最后的思考和回顾

以下是本文的重要要点小抄:

  1. 大样本 ≠ 好样本。保证准确代表一个群体需要的不仅仅是数量。
  2. 在统计学中,“误差”并不意味着“错误”。它与不确定性有关,而不确定性是统计工作中不可避免的元素。
  3. 机器学习和人工智能并非魔法。它们在很大程度上依赖于底层数据的质量。
  4. 数字有时会误导人。当有人提出统计声明,尤其是在非学术(即新闻)背景下,请仔细审查后再接受结论。

在这个数据驱动的世界中,你并不需要成为一个统计学专家,但了解一些基本的概念和避免陷阱对你会很有帮助。我希望本文能帮助你迈出第一步。

下次再见。

参考文献

[1] https://towardsdatascience.com/the-three-building-blocks-of-data-science-2923dc8c2d78 [2] https://bookdown.org/jgscott/DSGI/statistical-uncertainty.html [3] https://courses.lumenlearning.com/waymakermath4libarts/chapter/bayes-theorem/

Leave a Reply

Your email address will not be published. Required fields are marked *