所有的机器学习问题都是数据问题。
为了避免“垃圾进,垃圾出”的陈词滥调,您应该花相当多的时间来了解和清理您的数据。最近我读到了Konrad Banachewicz和Luca Massaron合著的《Kaggle之书》中,他们采访了许多Kaggle大师。有趣的是,忽略或跳过EDA(探索性数据分析)是他们和初学者最常犯的错误。
我们都知道EDA是多么重要,但我们仍然会跳过这一步。可能是因为很难知道从哪里开始,应该问什么问题,或者我们太急于开始建模。
以下是3个Python库,可以部分自动化您的探索性数据分析,并帮助您开始您的数据项目。
下面分析的数据来自Kaggle的“房价预测”比赛。
YData Profiling
这是由Spark支持的Pandas profiling的新版本,现在已经超越了Pandas DataFrame。
然而,目标仍然是相同的:提供一行代码的探索性数据分析(EDA)体验。该软件包强调了拥有易于实施的数据质量评估框架的重要性。该框架不应仅限于项目的初始阶段,而应在整个数据项目中实施。
YData Profiling的运行只需两行代码。
!pip install ydata-profiling
from ydata_profiling import ProfileReport#生成数据概要报告profile = ProfileReport(train, title='EDA')#在Notebook中显示报告profile.to_notebook_iframe()
输出显示了变量的分布,并为您提供了一组警报…