Scikit-Learn和Matplotlib的异常点检测：实用指南

学习如何利用可视化、算法和统计方法来识别机器学习任务中的异常值。

想象一下一间充满了丰富多彩的气球的房间，每个气球代表数据集中的一个数据点。由于其不同的特征，气球漂浮在不同的高度。现在，想象一些充满氦气的气球突然飞得比其他气球更高。就像这些特殊的气球打破了房间的一致性一样，异常值打破了数据集的模式。

从这个丰富多彩的比喻回到纯统计学，异常值被定义为离群点，或者更准确地说，与数据集的其余部分显著偏离的数据点。

想象一个基于患者数据开发的机器学习算法用于诊断疾病。在这个现实世界的例子中，异常值可能是实验室结果或生理参数中的极高值。尽管它们的产生可能有各种原因，如数据收集错误、测量不准确性或真实的罕见事件，但它们的存在会导致算法做出错误的诊断。

这就是为什么我们，机器学习或数据科学从业者，必须始终谨慎处理异常值的原因。

在本文中，我将讨论几种高效识别和去除数据中异常值的方法。

其中之一就是SVM，我在这篇文章中进行了探讨。

towardsdatascience.com

异常值是数据集中的不具代表性的数据点，或者更准确地说，与其余部分显著偏离的数据点。尽管它们的定义很简单，但检测这些异常并不总是直接的，但首先，让我们回答以下基本问题。

我们为什么要检测数据集中的异常值？

对于这个问题有两个答案。检测异常值的第一个原因是因为…