Press "Enter" to skip to content

使用Python Pandas清理混乱的汽车数据集

无论您是进行探索性数据分析还是构建复杂的机器学习系统,您都需要确保数据已经清洁

(图像由Midjourney作者创建)

网络是作为数据来源的一种高价值资产。例如,用于创建大型语言模型的大部分训练数据来自于网络。

然而,它通常没有最合适的格式。网络数据主要是非结构化的(即以自由文本的形式)。即使它有预定义的结构,网络数据在用于分析目的之前需要进行大量的清洁和预处理。

在本文中,我们将使用pandas库来清理一个混乱的数据集,其中包括汽车的价格和其他一些属性。

如果您想要按照并执行代码,您可以从我的 datasets 仓库下载数据集。它被称为“mock_car_dataset”。我们将在这个混乱的数据集上执行以下一些操作:

  • 字符串操作
  • 处理数据类型
  • 根据字符串进行筛选
  • 替换值
  • 使用其他列更新列值
  • 格式化数值数据
  • 分析数据以检测问题

我用虚拟数据创建了这个数据集。但它就像您从网络上爬取的汽车数据集一样。我知道,因为我之前做过。

该数据集是以CSV格式呈现的。让我们首先创建一个pandas DataFrame:

import pandas as pd# 创建DataFramecars = pd.read_csv("mock_car_dataset.csv")# 检查形状cars.shape # 输出(20, 6)

该数据集包含20行和6列,这意味着我们有20辆汽车的6个属性的数据。尽管这是一个小数据集,但我们将执行的操作同样适用于更大的数据集(即几十万行)。

让我们看看这些属性是什么( cars.head() 会展示以下内容):

Leave a Reply

Your email address will not be published. Required fields are marked *