数据清洗、分析、可视化、特征选择和预测建模
之前我有一些关于探索性数据分析的教程,但我觉得应该再做更多的内容。将一个数据集进行探索,进行数据清洗、分析、可视化和预测模型,这是必要的。作为一名数据科学家或数据分析师,我们可能需要处理许多陌生的数据,有时甚至可能不了解特征,但这不应该阻止我们完成工作。最好能很好地了解特征。但如果没有该信息,分析部分也不应受影响。
在本文中,我将使用从Kaggle获取的一个数据集。我们大多数人可能不了解特征或列名。但让我们看看我们能做些什么。
我们将重点关注:
- 对数据集的基本了解。
- 通过一些可视化,进行思考并在更深层次上获取对数据集的整体理解。
- 找到从基本可视化中得出特定信息的方法。
- 进行预测建模。
请随意从此链接下载数据集:
Florida_Subsidence_Incident_Reports csv文件(kaggle.com)
首先进行必要的导入:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import seaborn as sns
使用数据创建一个Pandas的DataFrame:
pd.set_option('display.max_columns', 100)
df1 = pd.read_csv('Florida_Subsidence_Incident_Reports.csv')
数据集太大了,所以我这里不显示预览。以下是数据集的列名:
索引(Index):['X','Y','OBJECTID','REF_NUM','DATE_REV','EVENT_DATE','TRUE_SINK','LONGDD','LATDD','COUNTY','TWNSHP','TWNSHP_D','RANGE','RANGE_D','SECTION','QTRSECT1','QTRSECT2','ACCURACY','RPT_SOURCE','RPT_NAME','OCITY','OZIP','SIZDIM','SINSHAPE','SINLNGTH','SINWIDTH','SINDEPTH','SLOPE','WATSIN','WATBLS','LIMVIS'…