F1分数：一个可视化指南 – 以及为什么它无法解决不平衡数据的问题

结论放在文末

我们的工作是创建一个模型，用于将人们分为健康和生病两类。我们已经获得了关于他们的数据，创建了多个分类模型，现在是选择最佳模型的时候。

F1分数：一个可视化指南 - 以及为什么它无法解决不平衡数据的问题四海第2张

一种常见的估计模型性能的方法是测量其精确率和召回率。

精确率 — 所有预测为正例的样本中，实际为正例的比例。

召回率 — 在所有实际为正例的样本中，我们正确预测的比例。

F1分数：一个可视化指南 - 以及为什么它无法解决不平衡数据的问题四海第3张

精确率和召回率是很好的指标，但它们只是两个数值。如果要比较两个不同的模型并决定哪个更好，拥有一个单一的数值会更方便。

<p一种将精确率和召回率结合的方法是计算它们的平均值（算术平均）。

F1分数：一个可视化指南 - 以及为什么它无法解决不平衡数据的问题四海第4张

这种方法有效地将这两个指标结合为一个数值。然而，这里有个问题。

F1分数：一个可视化指南 - 以及为什么它无法解决不平衡数据的问题四海第5张

在这个例子中，我们得到了相同的平均值。但这两个模型是否同样好呢？

第一个模型可能只是毫无逻辑地将数据集中的所有样本都判断为正例，而第二个模型看起来更有用。

在寻找一个好模型时，我们希望避免那些精确率或召回率较低的模型。这些模型可能并不有用，我们希望如果两个数值中的一个远小于另一个时，将其“分数”降低。