Press "Enter" to skip to content

Python中的完整探索性数据分析

NEOM 在 Unsplash 上摄影

数据清洗、分析、可视化、特征选择和预测建模

之前我有一些关于探索性数据分析的教程,但我觉得应该再做更多的内容。将一个数据集进行探索,进行数据清洗、分析、可视化和预测模型,这是必要的。作为一名数据科学家或数据分析师,我们可能需要处理许多陌生的数据,有时甚至可能不了解特征,但这不应该阻止我们完成工作。最好能很好地了解特征。但如果没有该信息,分析部分也不应受影响。

在本文中,我将使用从Kaggle获取的一个数据集。我们大多数人可能不了解特征或列名。但让我们看看我们能做些什么。

我们将重点关注:

  1. 对数据集的基本了解。
  2. 通过一些可视化,进行思考并在更深层次上获取对数据集的整体理解。
  3. 找到从基本可视化中得出特定信息的方法。
  4. 进行预测建模。

请随意从此链接下载数据集:

Florida_Subsidence_Incident_Reports csv文件(kaggle.com)

首先进行必要的导入:

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import seaborn as sns

使用数据创建一个Pandas的DataFrame:

pd.set_option('display.max_columns', 100)
df1 = pd.read_csv('Florida_Subsidence_Incident_Reports.csv')

数据集太大了,所以我这里不显示预览。以下是数据集的列名:

索引(Index):['X','Y','OBJECTID','REF_NUM','DATE_REV','EVENT_DATE','TRUE_SINK','LONGDD','LATDD','COUNTY','TWNSHP','TWNSHP_D','RANGE','RANGE_D','SECTION','QTRSECT1','QTRSECT2','ACCURACY','RPT_SOURCE','RPT_NAME','OCITY','OZIP','SIZDIM','SINSHAPE','SINLNGTH','SINWIDTH','SINDEPTH','SLOPE','WATSIN','WATBLS','LIMVIS'…
Leave a Reply

Your email address will not be published. Required fields are marked *