捕捉-再捕捉方法

估计不需要全面计数的人口规模

当你捕捉我们的个体时，请确保不要伤害它们，因为你之后必须再次释放它们。照片由Anne Nygård在Unsplash上提供

在这篇文章中，我想介绍一种估计人口规模的统计方法，而不需要进行全面计数，这种方法被称为“捕获-再捕获”方法。这种方法源自生物领域，但也可以应用于许多其他领域和情景，对数据科学家和相关专业人士可能具有兴趣。

我将首先在一个生物学的例子上演示这个过程，然后再讨论它的统计背景和允许使用的属性。之后，我将提供一些不同领域的示例，以展示捕获-再捕获方法在不同情景下的能力。

我的花园里有多少只蜗牛？

很多人不喜欢蜗牛，但我仍然认为它们很可爱。让我们在不伤害它们的情况下数一数它们。照片由Krzysztof Niewolny在Unsplash上提供

假设我想知道我的花园里有多少只蜗牛。我可以试着数一数它们，但是我怎么知道什么时候数完了呢？即使我找不到更多的蜗牛，我也无法确定是否还有剩下的。相反，我可以使用另一种方法。

在第一天，我花半小时时间收集蜗牛并数一数它们。此外，我在释放它们回到花园之前，给每个蜗牛标记一个点。假设我收集了21只蜗牛。我现在能否给出蜗牛总数的估计？不行，还不行（除了事实上至少有21只蜗牛），但我还没完成。

一天后，我再次去花园，花半小时时间数蜗牛。那天我找到的一些蜗牛已经在它们的壳上有一个点，也就是说，我昨天已经找到它们了，而其他一些蜗牛则没有（也就是说，昨天我没有找到那只特定的蜗牛）。假设我那天数了28只蜗牛，其中有9只已经标记了一个点。现在我可以估计蜗牛总数了。我们来做个数学题。

第二天，我找到的蜗牛中有9/28是我前一天已经找到的。这个比例应该等于我第一天找到的蜗牛与蜗牛总数的比例，即21/N = 9/28，其中N是蜗牛的总数。我可以重新组织这个方程，得到蜗牛的数量为N = (21*28)/9 = 65。

为什么呢？在第二天，一定比例的个体（比如p%）具有某个属性（即被标记）。如果我从总体中随机抽取样本，我期望我样本中的p%也具有这个属性。这是非常直观的：如果你从你所在城市的总体中随机抽样，你也期望你的样本中的性别比例反映了总体的性别比例，对吗？然而，在第二天，我们知道了这个比例p，而在第一天我们并不知道（在第一天给蜗牛上色时，我们不知道我们已经捕捉到了多少比例的蜗牛），所以在第一天，我们给了所有蜗牛中的p%上色。现在从这个方程中很容易得出蜗牛的总数：如果我给21只蜗牛上色，现在我知道这是总体的9/28=32%左右，那么总共大约有65只蜗牛（其中21大约是65的32%）。

重新捕获的条件

在使用Capture-ReCapture方法之前，请确保满足所需条件。图片由Sung Jin Cho在Unsplash上提供

除了计算花园中蜗牛的数量之外，在许多其他场景中，您也可以应用上述程序。正如您所想象的那样，两个抽样步骤之间的时间间隔不一定是一天，标记也可以以与直接标记个体不同的方式进行。您还可以仅保留在第一轮中绘制的个体列表，只要您可以轻松确定第二次迭代中发现的个体是否已经在列表中存在。然而，为了能够应用Capture-ReCapture方法，必须满足以下一些属性：

在数据收集的两个时间点上，人口必须相同。特别是，这要求在两个时间点之间不添加或删除任何个体。
在数据收集的两个时间点上，必须随机且独立地进行抽样。即每个个体被捕获的可能性必须相同。特别是，标记与否不应对在另一次抽样时被绘制的可能性产生影响。
每次抽样的个体数量必须足够大，以创建有意义的重叠。您可以想象，从您当地的图书馆中随机抽样100本书，而图书的数量为数百万本，根本不会产生重叠，因此对估计毫无帮助。

示例用例

剧透：医学是应用Capture-ReCapture方法的领域之一。图片由Ksenia Yakovleva在Unsplash上提供

现在我们已经了解了Capture-ReCapture方法，让我们看一些可以使用它的示例。每当我们想要确定一个人口的大小，而又无法完全计数时，它都非常有用。然而，不同的情况可能有不同的方法先决条件的陷阱需要考虑。

统计聚会上的客人数量

在您参加的下一个聚会上，您可以花五分钟来标记一些个体（通过直接标记或保持列表），几分钟后再次随机抽取个体。然而，请确保您真正随机且独立地抽取。也就是说，您应该从各个地方抓住人们，不要对您认识或不认识的人有偏见。此外，请确保数据收集的两个时间点之间的间隔不要太大，否则您的估计可能会受到此期间人们离开聚会的影响。

从两个独立列表中捕获

Capture-ReCapture方法的一个变体不是在不同时间点进行重新捕获，而是使用两个独立的数据源（这些数据源是从相同分布中抽取的）及其重叠部分。因此，该方法经常在医学场景中使用。让我们看一个估计疾病患病率的例子。

假设我有一份来自医院的患者名单，列出了142个患有某种疾病的人，我还有一份来自国家卫生服务的名单，列出了442个患有该疾病的人。假设71个人在两个名单中都出现。然后我们可以使用上面的公式得出我们的结果（142*442）/71 = 884。也就是说，估计有884人患有这种疾病。

对于该变体来说，最重要的是这两个列表确实是独立的。也就是说，一个人成为一个列表的一部分的可能性与该个体是否是另一个列表的一部分或反之亦然，不应有差异。

估计潜在客户的数量

假设您有一个网站来销售您令人叹为观止的新产品。在某一天，您可以通过跟踪访客的IP捕捉到访者，在几天后的同样时间也可以。通过两天之间的重叠，您可以估计潜在客户的数量。然而，您应该意识到，这种情况很容易违反一个重要假设，即两次捕捉都是独立的。特别是，可以说在第一天访问网站可能会增加再次访问网站的可能性。

总结

我们现在已经看到了一些捕捉-再捕捉方法的示例，这种方法允许我们估计一个人口的大小而不必完全计数。该方法要求对人口进行两个独立的样本抽取（可以是在不同时间点或来自不同来源），并使用它们的重叠部分来估计人口大小。这可以在各种领域中使用，每当无法完全观察人口时。

进一步阅读

我从以下书籍中改编了在花园中计数蜗牛的例子：

Kit Yates（2019）。《生命与死亡的数学》。为什么数学是（几乎）一切。Quercus Editions Ltd，伦敦。

可以在此处找到医学领域中使用的捕捉-再捕捉方法的概述：

Ramos, P. L., Sousa, I., Santana, R., Morgan, W. H., Gordon, K., Crewe, J., … & Macedo, A. F. (2020). A review of capture-recapture methods and its possibilities in ophthalmology and vision sciences. Ophthalmic Epidemiology, 27(4), 310–324.

喜欢这篇文章吗？关注我以接收我的未来文章通知。