“一个比例有多可靠？”

学习如何使用 Python 中的经验贝叶斯分析方法评估比率的可靠性

照片由 Unsplash 上的 rupixen.com 提供 — 照片由 rupixen.com 在 Unsplash 上提供

介绍

在数据科学领域，我参考的人之一是 Julia Silge。在她的 Tidy Tuesday 视频中，她总是以教学/展示给定技术的方式进行编码，帮助其他分析师提升技能并加入自己的技能库。

上个星期二，她的主题是经验贝叶斯（她的博客文章），引起了我的注意。

但是，那是什么呢？

经验贝叶斯

经验贝叶斯是一种在我们处理比率（如[成功]/[尝试总数]）时使用的统计方法。当我们处理这类变量时，经常会遇到 1/2 (50% 的成功率)、3/4 (75%)、0/1 (0%) 的情况。

这些极端的百分比并不代表长期的实际情况，因为尝试次数太少，很难判断是否存在趋势，而大多数情况下这些案例被忽视或删除。我们需要更多的尝试来确定真实的成功率，例如 30/60、500/100，或者对于某个业务来说有意义的尝试次数。

然而，通过使用经验贝叶斯，我们能够利用当前数据分布来计算早期或后期阶段的数据估计，下面我们将在本篇文章中看到如何做到这一点。

我们利用数据分布来估计每个观察值比率的早期和后期阶段。

分析

让我们开始分析。需要按步骤进行：

加载数据
定义成功并计算成功比率
确定分布的参数
计算 Bayes 估计量
计算可信区间

让我们继续。

导入

# 导入import pandas as pdimport numpy as npimport scipy.stats as scsimport matplotlib.pyplot as pltimport seaborn as snsimport plotly.express as pxfrom distfit import distfit