学习如何利用可视化、算法和统计方法来识别机器学习任务中的异常值。
![Scikit-Learn和Matplotlib的异常点检测:实用指南 四海 第1张-四海吧 气球和异常值有什么关系?在简介中找到答案。图片来源:pixabay.com。](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*vGf8PYRayK_JvOHH8PIN0Q.jpeg)
想象一下一间充满了丰富多彩的气球的房间,每个气球代表数据集中的一个数据点。由于其不同的特征,气球漂浮在不同的高度。现在,想象一些充满氦气的气球突然飞得比其他气球更高。就像这些特殊的气球打破了房间的一致性一样,异常值打破了数据集的模式。
从这个丰富多彩的比喻回到纯统计学,异常值被定义为离群点,或者更准确地说,与数据集的其余部分显著偏离的数据点。
想象一个基于患者数据开发的机器学习算法用于诊断疾病。在这个现实世界的例子中,异常值可能是实验室结果或生理参数中的极高值。尽管它们的产生可能有各种原因,如数据收集错误、测量不准确性或真实的罕见事件,但它们的存在会导致算法做出错误的诊断。
这就是为什么我们,机器学习或数据科学从业者,必须始终谨慎处理异常值的原因。
在本文中,我将讨论几种高效识别和去除数据中异常值的方法。
其中之一就是SVM,我在这篇文章中进行了探讨。
使用Scikit-Learn进行支持向量机:友好介绍
每个数据科学家都应该在他们的工具箱中有SVM。学习如何通过实践来掌握这个多功能模型…
towardsdatascience.com
什么是异常值?
异常值是数据集中的不具代表性的数据点,或者更准确地说,与其余部分显著偏离的数据点。尽管它们的定义很简单,但检测这些异常并不总是直接的,但首先,让我们回答以下基本问题。
我们为什么要检测数据集中的异常值?
对于这个问题有两个答案。检测异常值的第一个原因是因为…