Press "Enter" to skip to content

对AUC和Harrell’s C的直观理解

一个图形化的方法

作者提供的照片

每个进入机器学习或预测建模领域的人都会接触到模型性能测试的概念。教科书通常只在读者首次学到的内容上有所不同:回归使用均方误差(MSE),而分类则有许多性能指标,比如准确率、灵敏度或精确度等等。虽然后者可以简单地计算为正确/错误预测的比例,因此非常直观,但ROC AUC一开始可能令人生畏。然而,它也是经常用来评估预测器质量的参数。让我们先解开它的机制,了解其中的细枝末节。

首先理解AUC

假设我们已经构建了一个二元分类器,用于预测样本属于某一类的概率。我们的测试数据集中已知类别的结果如下,可以总结为一个混淆矩阵,并在表格中更详细地报告,其中样本已按照被预测为类别P(正样本)的概率进行排序:

作者提供的混淆矩阵和详细预测表格,包含每个样本的概率。

ROC AUC被定义为ROC(接收器操作特性)曲线下的面积。ROC曲线是真正例率(TPR)与假正例率(FPR)的图。TPR(也称为灵敏度)是正确识别出的正例占所有正例的比例。在我们的例子中,TPR计算为4/5(五个样本中有四个被正确分类为正例)。FPR被计算为错误分类为正例(假阳性)的负例数与实际负例总数之比。在我们的例子中,FPR计算为2/6(六个负例中有两个被错误地分类为正例,如果我们将“正例”的阈值设置为0.5的概率)。

我们可以根据TPR和FPR的值绘制ROC曲线,并计算AUC(曲线下面积):

基于预测概率的ROC曲线。作者提供的图像。

AUC曲线的每个TPR/FPR值从哪里来?为此,我们考虑我们的概率表格,并计算每个样本的TPR/FPR,将我们认为样本为正例的概率作为表格中给定的概率。即使当我们越过通常的0.5水平时,样本通常被声明为“负例”,我们继续将它们分配为正例。让我们在我们的例子中按照这个步骤进行:

作者提供的图像

在阈值为0.81时,五个正例中的一个样本被正确分类为正例,没有样本被预测为负例。我们继续,直到遇到第一个负例样本:

作者提供的图像

在这里,我们的TPR停留在先前的值(五个正例中有三个被正确预测),但FPR增加,我们错误地将一个负例样本分配到了正类。我们继续,直到最后:

作者提供的图片

Et voilà: 我们得到了完整的表格,用于创建ROC曲线。

为什么Harrell的C指数就是AUC

那么Harrell的C指数(也称为一致性指数或C指数)如何呢?考虑一项特定任务,即在发生特定疾病(例如癌症)时预测死亡。最终,所有患者都会死亡,无论是否患有癌症 —— 简单的二元分类器并不会有太大帮助。生存模型将考虑到结果(死亡)发生之前的持续时间。事件发生得越早,个体遇到结果的风险就越高。如果要评估生存模型的质量,您将查看C指数(也称为一致性指数,即Harrell的C)。

为了理解C指数的计算,我们需要引入两个新概念:可允许对和一致对。可允许对是指在观察期间具有不同结果的样本对(比如:患者),即在实验进行时,这样一对患者中的一个经历了结果,而另一个被审查(即尚未达到结果)。然后,对这些可允许对进行分析,看高风险得分个体是否经历了事件,而被审查的个体则没有。这些情况被称为一致对。

简化一下,C指数被计算为一致对数与可允许对数的比值(为了简单起见,我忽略了风险并列的情况)。让我们以我们的示例为例,假设我们使用的是计算风险而不是概率的生存模型。下表只包含可允许对。如果具有较高风险得分的患者经历了事件(属于我们的“阳性”组),则“一致性”列设置为1。id只是上一个表的行号。特别注意与个体4与5或7的比较。

作者提供的图片

这样我们就有了30对可允许对中的27对一致对。比率(简化的Harrell的C)为C = 0.9,这让我们怀疑其与之前计算的AUC相同。

我们可以构建一个协调矩阵,以可视化C统计量的计算,正如Carrington等人所建议的。该图显示了实际阳性风险得分与实际阴性风险得分的比例,以及如果我们将每个网格方块解释为样本的正确排序对(绿色)占所有对(绿色+红色)的比例:

用于计算Harrell的C的协调矩阵。作者提供的图片

协调矩阵在底部右侧显示正确排序对,错误排序对在顶部左侧,中间有一道边界,与我们之前看到的ROC曲线完全相对应。

拆解构建ROC曲线和协调矩阵的过程,我们发现它们有相似之处:在任何一种情况下,我们都根据概率/风险得分对样本进行排序,并检查排序是否与真实情况相对应。我们设置分类的概率阈值越高,得到的假阳性就越多。实际阳性案例的风险越低,实际阴性案例被错误分类为阳性的可能性就越大。相应地绘制我们的排序数据,得到了一个形状和面积相同的曲线,我们称之为AUC或Harrell的C,具体取决于上下文。

希望这个例子有助于对AUC和Harrell的C有所认识。

致谢

比较这两个参数的想法起源于在高级机器学习学习小组聚会期间的一次富有成果的讨论,向Torsten致敬!

参考文献:Carrington, A.M., Fieguth, P.W., Qazi, H.等。A new concordant partial AUC and partial c statistic for imbalanced data in the evaluation of machine learning algorithms. BMC Med Inform Decis Mak 20, 4 (2020). https://doi.org/10.1186/s12911-019-1014-6

Leave a Reply

Your email address will not be published. Required fields are marked *