Press "Enter" to skip to content

3个强大的Python库(部分)自动化数据探索分析, 让您开始进行数据项目

所有的机器学习问题都是数据问题。

为了避免“垃圾进,垃圾出”的陈词滥调,您应该花相当多的时间来了解和清理您的数据。最近我读到了Konrad Banachewicz和Luca Massaron合著的《Kaggle之书》中,他们采访了许多Kaggle大师。有趣的是,忽略或跳过EDA(探索性数据分析)是他们和初学者最常犯的错误。

Choong Deng Xiang在Unsplash上的照片

我们都知道EDA是多么重要,但我们仍然会跳过这一步。可能是因为很难知道从哪里开始,应该问什么问题,或者我们太急于开始建模。

以下是3个Python库,可以部分自动化您的探索性数据分析,并帮助您开始您的数据项目。

下面分析的数据来自Kaggle的“房价预测”比赛。

YData Profiling

这是由Spark支持的Pandas profiling的新版本,现在已经超越了Pandas DataFrame。

然而,目标仍然是相同的:提供一行代码的探索性数据分析(EDA)体验。该软件包强调了拥有易于实施的数据质量评估框架的重要性。该框架不应仅限于项目的初始阶段,而应在整个数据项目中实施。

YData Profiling的运行只需两行代码。

!pip install ydata-profiling

from ydata_profiling import ProfileReport#生成数据概要报告profile = ProfileReport(train, title='EDA')#在Notebook中显示报告profile.to_notebook_iframe()
指示高相关性、类别不平衡、丢失数据等的警报... 图片由作者提供
变量分布。 图片由作者提供

输出显示了变量的分布,并为您提供了一组警报…

Leave a Reply

Your email address will not be published. Required fields are marked *