Press "Enter" to skip to content

Tag: probability

Mann-Kendall趋势检验使用Python

介绍 曼-肯德尔趋势检验,以H.A.曼和D.R.肯德尔命名,是一种非参数检验方法,用于确定趋势是否随时间显著变化。趋势可以是随时间单调增加或单调减少的。由于这是一种非参数检验方法,所以我们不必担心数据的分布。但是数据不应该具有串联相关性/自相关性(时间序列中的误差项从一个时期转移到另一个时期)。 曼-肯德尔检验旨在检测单调趋势,即随时间持续增加或减少的趋势,而不假设数据的特定分布。当处理可能不满足参数检验(如正态性)假设的数据时,它特别有用。 本文是数据科学博客马拉松的一部分。 样本量要求 如果你有非常小的样本,比如3或4个,那么很有可能找不到任何趋势。随着时间的推移,我们拥有的样本越多,测试统计量的可靠性就越高。尽管测试也可以针对非常小的样本进行,但建议的数据量至少为10。 测试目标 在本文中,我们研究了火车出轨事故随时间的相关情况。奥迪沙最近的火车出轨事故再次对铁路安全提出了质疑。铁路事故可以按照事故类型进行分类(例如正面碰撞、尾部碰撞、爆炸、侧面碰撞、出轨、火灾等)。随着时间的推移,铁路在技术和基础设施方面有了许多改进。尽管现代化的进展已经到位,但世界各地的火车事故仍然很常见。火车事故是全球铁路系统中发生的不幸事件。这些事故可能导致生命损失、伤害和财产损失。 在本研究中,我们将确定在印度,随着这些年所做的各种进步,我们是否能够减少火车事故(我们将研究事故类别中的出轨事故)。我们获得的有关印度出轨事故的数据是时间序列数据。我们拥有从2001年到2016年的出轨数据。数据按时间顺序排列。 我们的数据 从上表中,我们可以清楚地看到数据呈下降趋势。自2001年以来,出轨事故的数量大大减少。在2001年,我们有350起与出轨相关的事故,而在2016年减少到65起。由于数据是按顺序排列的,我们可以直接将其输入到Python环境中并进行处理。让我们在Python中绘制一个图来正确地可视化数据。 !pip install seaborn import seaborn as sns import matplotlib.pyplot as plt fig = plt.subplots(figsize=(20,…

Leave a Comment

什么是似然和概率之间的区别?

可能性和概率是数据科学和商业中常用的相互关联和经常混淆的术语。两种概率都与概率相关,但在定义和用法上有所不同。本文旨在澄清可能性与概率的定义、用法和误解,以便更好地理解和应用于各自的领域。 什么是可能性? 我们可以将可能性定义为一种定量估计或度量,指出模型或假设在观察数据中的适合程度。它也可以被解释为在特定参数集中找到期望结果或数据收集的机会。在统计推断中发挥着基础作用,可能性的最终目的是得出有关数据特征的结论。通过利用最大似然估计或MLE来找到参数估计,看到了参数估计在实现相同目的中的作用。 假设检验使用可能性比率评估零假设。类似地,可能性通过比较模型进行模型选择和检查。研究人员常常使用贝叶斯信息准则(BIC)和阿卡伊克信息准则(AIC)作为模型选择的度量。基于可能性的方法在构建置信区间以估计参数方面发挥着重要作用。 什么是概率? 概率是指我们根据模型参数预测的特定结果发生的可能性或机会。概率测量提供了预测和理解不确定事件可能性的框架。它有助于通过比较不同结果的可能性来量化概率理论中的不确定性。在预测建模中,我们使用概率理论构建置信区间、进行概率预测和进行假设检验。 此外,随机性和随机过程取决于概率理论,因为需要分析和建模随机现象。这里使用概率进行模拟和理解复杂系统。此外,由概率提供的重要的公理、规则和定理,对不确定性和逻辑一致性的分析具有重要意义。 可能性与概率-计算 使用可能性函数计算可能性 可能性函数是一个数学表达式,用于确定数据分布。该函数表示为Likelihood(|x),其中|表示所需模型的参数,X表示观察到的数据。 让我们通过一个例子来理解这个问题。例如,您有一袋彩色弹珠。你想预测取出红色弹珠的概率。从随机抽样开始,记录颜色,然后使用上述公式计算可能性。您将计算或估计代表抽出红色弹珠的概率的参数。我们将如先前所述的可能性函数表示为,它表示给定特定值的观察数据x的概率。 假设独立且同分布的抽样,可能性函数将为: L(|x)= k(1-)(n-k),其中n是抽样次数,k是观察到的数据中的红色弹珠数。假设您按顺序抽出弹珠五次,红,红,蓝,红,蓝。 L(0.5|x)=0.53(1-0.5)(5-3) L(0.5|x)=0.530.52 L(0.5|x)=0.015625 因此,在= 0.5的情况下,观察到所述球序列的可能性为0.015625。 使用PMF或PDF计算概率 PMF计算从一组明确的有限变量中找到所需值的概率。它表示为P(X = x),其中x是随机变量的特定值。在PMF中,x的值为非负数,基于x的可能值的概率之和为1。 PDF涵盖了广泛的领域,并指示找到特定值或落在特定值范围内的概率。这里的表达式表示为f(x)。同样,概率密度函数为非负数,曲线覆盖的区域等于1。 将可能性解释为衡量数据与特定假设或模型的匹配程度的度量…

Leave a Comment