Press "Enter" to skip to content

假设检验和A/B测试

假设检验和A/B测试 四海 第1张  

在一个数据为王的时代,企业和组织不断寻找利用其力量的方法。

从亚马逊上推荐给你的产品到社交媒体上看到的内容,背后都有一种精确的方法。

决策的核心是什么呢?

A/B测试和假设检验。

但是它们是什么,为什么它们在我们的数据中心世界中如此关键呢?

让我们一起来探索吧!

 

你屏幕背后的魔法

 

统计分析的一个重要目标是在数据中找到模式,然后将这些模式应用于现实世界。

而机器学习在这里扮演着关键的角色!

机器学习通常被描述为在数据中找到模式并将其应用于数据集的过程。有了这种新的能力,世界上的许多过程和决策变得极其数据驱动。

每当你在亚马逊上浏览并获得产品推荐,或者在社交媒体上看到定制内容时,没有什么魔法在起作用。

这是复杂数据分析和模式识别的结果。

许多因素可以决定一个人是否愿意购买。这些因素可以包括以前的搜索、用户人口统计数据,甚至是一天中的时间和按钮的颜色。

而这正是通过分析数据中的模式可以找到的东西。

像亚马逊或Netflix这样的公司已经构建了复杂的推荐系统,分析用户行为中的模式,比如浏览的产品、喜欢的物品和购买的物品。

但是由于数据经常会带有噪声和随机波动,这些公司如何确保他们看到的模式是真实的呢?

答案就在于假设检验。

 

假设检验:验证数据中的模式

 

假设检验是一种用于确定给定假设的可能性的统计方法。

简单来说,它是一种验证数据中观察到的模式是真实的还是仅仅是由于偶然结果的方法。

该过程通常涉及以下步骤:

 

#1. 建立假设

 

这包括陈述一个零假设,即假设是真实的,通常是观察结果是由偶然结果造成的事实,以及一个备择假设,研究人员希望证明的内容。

  假设检验和A/B测试 四海 第2张

 

#2. 选择一个检验统计量

 

这是用来确定零假设的真实值的方法和数值。

 

#3. 计算p值

 

它是一个检验统计量至少与观察到的检验统计量具有相同或更显著程度的概率,假设零假设为真。简单地说,它是相应检验统计量右侧的概率。

p值的主要好处是可以以任意期望的显著水平alpha进行测试,通过将此概率直接与alpha进行比较,这是假设检验的最后一步。

Alpha表示对结果的置信程度。这意味着alpha为5%表示有95%的置信度。只有当p值小于或等于alpha时,零假设才被保留。

一般来说,较低的p值更受欢迎。

  假设检验和A/B测试 四海 第3张

 

#4. 得出结论

 

根据p值和选择的显著水平alpha,决定是接受还是拒绝零假设。

例如,如果一家公司想要确定改变购买按钮的颜色是否会影响销售额,假设检验可以提供一种结构化的方法来做出明智的决策。

 

A/B测试:实际应用

 

A/B测试是假设检验的实际应用。它是一种用于比较产品或功能的两个版本,以确定哪个表现更好的方法。

这涉及将两个变体同时展示给不同用户群体,并使用成功和跟踪指标来确定哪个变体更成功。

用户看到的每一条内容都需要进行微调以发挥其最大潜力。在此类平台上进行A/B测试的过程与假设检验相似。

所以…假设我们是一个社交媒体,我们想要了解当使用绿色或蓝色按钮时,我们的用户更有可能参与。

  假设检验和A/B测试 四海 第4张   它涉及:

  1. 初步研究:了解当前情况并确定需要测试的功能。在我们的例子中,是按钮颜色。
  2. 制定假设:没有这些,测试活动将毫无方向。当使用蓝色时,用户更有可能参与。
  3. 随机分配:将测试功能的不同变体随机分配给用户。我们将用户分成两个不同的随机分组。
  4. 结果收集和分析:测试结束后,收集、分析结果,并部署成功的变体。

 

真实的A/B测试企业案例

 

以我们是一家社交媒体公司的想法,我们可以尝试描述一个真实案例。

目标:增加平台上的用户参与度。

用于衡量的指标:平均使用平台的时间。这可能是其他相关指标,如发布的帖子数量或点赞数量。

 

#步骤1:确定一个变化

 

社交媒体公司假设,如果他们重新设计分享按钮,使其更加突出和易于找到,更多用户将分享帖子,从而增加参与度。

 

#步骤2:创建两个版本

 

  • 版本A(空):当前平台设计,分享按钮保持原样。
  • 版本B(替代):相同的平台,但重新设计的分享按钮更加突出。

 

#步骤3:分割受众

 

公司将用户群体随机分为两组:

  • 50%的用户将看到版本A。
  • 50%的用户将看到版本B。

 

#步骤4:运行测试

 

公司在预定的时间内运行测试,例如30天。在此期间,他们收集两组用户参与度指标的数据。

 

#步骤5:分析结果

 

测试结束后,公司分析数据:

  • 版本B组的平均使用平台时间是否增加?

 

#步骤6:做出决策

 

一旦收集到所有数据,有两个主要选择:

  • 如果版本B在参与度方面表现优于版本A,公司决定将新的分享按钮设计推广给所有用户。
  • 如果没有显著差异,或者版本A表现更好,公司决定保留原始设计并重新思考他们的方法。

 

#第7步:迭代

 

永远记住,迭代是关键! 

公司不会止步于此。他们现在可以测试其他元素,以持续优化参与度。

 

确保组别是随机选择的,并且他们所体验到的唯一差异是正在测试的变化。这样可以确保参与度上的任何观察到的差异都可以归因于变化,而不是其他外部因素。

 

推断统计学:不仅仅是差异

 

尽管只比较两个组别的表现似乎很简单,但是推断统计学,如假设检验,提供了一个更有结构的方法。

例如,当测试新的培训方法是否改善了送货司机的表现时,仅仅比较培训前后的表现可能会因为天气等外部因素而产生误导。

通过使用A/B测试,可以隔离这些外部因素,确保观察到的差异真正是由于治疗的原因。

 

驾驭数据驱动的领域

 

在当今世界,决策越来越多地依赖于数据,像A/B测试和假设检验这样的工具是不可或缺的。它们提供了一种科学的决策方法,确保企业和组织不仅仅依靠直觉,而是依靠经验证据。

随着我们不断产生更多的数据和技术的发展,这些工具的重要性只会增强。 

永远记住,在庞大的数据海洋中,不仅仅是收集信息,还要学会如何处理它并利用它。 

通过假设检验和A/B测试,我们拥有了有效驾驭这些数据的指南针。 

欢迎来到迷人的数据驱动决策世界!  Josep Ferrer是来自巴塞罗那的分析工程师。他毕业于物理工程专业,目前在应用于人类移动性的数据科学领域工作。他是一位兼职内容创作者,专注于数据科学和技术。您可以通过LinkedIn、Twitter或VoAGI与他联系。  

Leave a Reply

Your email address will not be published. Required fields are marked *