Press "Enter" to skip to content

Scikit-Learn和Matplotlib的异常点检测:实用指南

学习如何利用可视化、算法和统计方法来识别机器学习任务中的异常值。

气球和异常值有什么关系?在简介中找到答案。图片来源:pixabay.com。

想象一下一间充满了丰富多彩的气球的房间,每个气球代表数据集中的一个数据点。由于其不同的特征,气球漂浮在不同的高度。现在,想象一些充满氦气的气球突然飞得比其他气球更高。就像这些特殊的气球打破了房间的一致性一样,异常值打破了数据集的模式。

从这个丰富多彩的比喻回到纯统计学,异常值被定义为离群点,或者更准确地说,与数据集的其余部分显著偏离的数据点。

想象一个基于患者数据开发的机器学习算法用于诊断疾病。在这个现实世界的例子中,异常值可能是实验室结果或生理参数中的极高值。尽管它们的产生可能有各种原因,如数据收集错误测量不准确性或真实的罕见事件,但它们的存在会导致算法做出错误的诊断。

这就是为什么我们,机器学习或数据科学从业者,必须始终谨慎处理异常值的原因。

在本文中,我将讨论几种高效识别和去除数据中异常值的方法。

其中之一就是SVM,我在这篇文章中进行了探讨。

使用Scikit-Learn进行支持向量机:友好介绍

每个数据科学家都应该在他们的工具箱中有SVM。学习如何通过实践来掌握这个多功能模型…

towardsdatascience.com

什么是异常值?

异常值是数据集中的不具代表性的数据点,或者更准确地说,与其余部分显著偏离的数据点。尽管它们的定义很简单,但检测这些异常并不总是直接的,但首先,让我们回答以下基本问题。

我们为什么要检测数据集中的异常值?

对于这个问题有两个答案。检测异常值的第一个原因是因为…

Leave a Reply

Your email address will not be published. Required fields are marked *