3个强大的Python库（部分）自动化数据探索分析, 让您开始进行数据项目

所有的机器学习问题都是数据问题。

为了避免“垃圾进，垃圾出”的陈词滥调，您应该花相当多的时间来了解和清理您的数据。最近我读到了Konrad Banachewicz和Luca Massaron合著的《Kaggle之书》中，他们采访了许多Kaggle大师。有趣的是，忽略或跳过EDA（探索性数据分析）是他们和初学者最常犯的错误。

Choong Deng Xiang在Unsplash上的照片 — 照片由Choong Deng Xiang提供，来源Unsplash

我们都知道EDA是多么重要，但我们仍然会跳过这一步。可能是因为很难知道从哪里开始，应该问什么问题，或者我们太急于开始建模。

以下是3个Python库，可以部分自动化您的探索性数据分析，并帮助您开始您的数据项目。

下面分析的数据来自Kaggle的“房价预测”比赛。

YData Profiling

这是由Spark支持的Pandas profiling的新版本，现在已经超越了Pandas DataFrame。

然而，目标仍然是相同的：提供一行代码的探索性数据分析（EDA）体验。该软件包强调了拥有易于实施的数据质量评估框架的重要性。该框架不应仅限于项目的初始阶段，而应在整个数据项目中实施。

YData Profiling的运行只需两行代码。

!pip install ydata-profiling

from ydata_profiling import ProfileReport#生成数据概要报告profile = ProfileReport(train, title='EDA')#在Notebook中显示报告profile.to_notebook_iframe()

指示高相关性、类别不平衡、丢失数据等的警报... 图片由作者提供 — 指示高相关性、类别不平衡、丢失数据等的警报… 图片由作者提供

输出显示了变量的分布，并为您提供了一组警报…