估计总实验影响

如何在测量组织总体影响力时控制假发现和选择偏差

介绍

数据驱动的组织通常在任何给定时间运行数百或数千个实验，但所有这些实验的净影响是什么？一种天真的方法是对所有产生显著且正向处理效应并在生产中推出的实验进行均值差的求和。然而，即使我们假设个别实验之间没有相关性，这个估计也可能极其偏倚。我们将运行一项包含10,000个实验的模拟，并显示这种天真的方法高估了实际影响达到了45%！

我们回顾了Lee和Shen [1]提出的理论偏差校正公式。然而，这种方法存在两个缺陷：首先，尽管它在理论上是无偏的，但我们证明其对应的插值估计量仍然由于原始问题的类似原因而存在显著偏差。其次，它没有将影响归因于个别实验。

在本文中，我们探讨了两种偏差来源：

假发现偏差 – 由于假阳性，估计值被夸大；
选择偏差 – 由决策标准引入的偏差使估计值被夸大：处理效应的低估（假阴性）被审查，而高估被奖励。

为了解决假发现，我们将构建一个给定结果实际上非零的概率。这个概率是通过比较p值密度与真空的参考残差密度构建的。

为了解决选择偏差，我们将使用经验分布校正假发现的方法计算每个实验结果的后验分布作为我们的先验。

这个过程产生了对我们模拟的一系列实验的平均实验影响的准确估计，将仅使用经验测量产生的45%原始误差减少到0.4%误差。

估计总实验影响

如何在测量组织总体影响力时控制假发现和选择偏差

介绍

效应分布