Press "Enter" to skip to content

“一个比例有多可靠?”

学习如何使用 Python 中的经验贝叶斯分析方法评估比率的可靠性

照片由 Unsplash 上的 rupixen.com 提供

介绍

在数据科学领域,我参考的人之一是 Julia Silge。在她的 Tidy Tuesday 视频中,她总是以教学/展示给定技术的方式进行编码,帮助其他分析师提升技能并加入自己的技能库。

上个星期二,她的主题是经验贝叶斯(她的 博客文章),引起了我的注意。

但是,那是什么呢?

经验贝叶斯

经验贝叶斯是一种在我们处理比率(如[成功]/[尝试总数])时使用的统计方法。当我们处理这类变量时,经常会遇到 1/2 (50% 的成功率)、3/4 (75%)、0/1 (0%) 的情况。

这些极端的百分比并不代表长期的实际情况,因为尝试次数太少,很难判断是否存在趋势,而大多数情况下这些案例被忽视或删除。我们需要更多的尝试来确定真实的成功率,例如 30/60、500/100,或者对于某个业务来说有意义的尝试次数。

然而,通过使用经验贝叶斯,我们能够利用当前数据分布来计算早期或后期阶段的数据估计,下面我们将在本篇文章中看到如何做到这一点。

我们利用数据分布来估计每个观察值比率的早期和后期阶段。

分析

让我们开始分析。需要按步骤进行:

  1. 加载数据
  2. 定义成功并计算成功比率
  3. 确定分布的参数
  4. 计算 Bayes 估计量
  5. 计算可信区间

让我们继续。

导入

# 导入import pandas as pdimport numpy as npimport scipy.stats as scsimport matplotlib.pyplot as pltimport seaborn as snsimport plotly.express as pxfrom distfit import distfit
Leave a Reply

Your email address will not be published. Required fields are marked *