Press "Enter" to skip to content

尝试这三个较少知名的Pandas函数

使用pandas提高数据处理技能

Balázs Kétyi在Unsplash上的照片

如果你问任何有经验的数据科学家和机器学习工程师,他们工作中花费最多时间的是什么?我猜其中很多人会说:数据预处理-一种清理数据并为顺序数据分析做准备的步骤。原因很简单-垃圾进,垃圾出。也就是说,如果你不正确地准备数据,你对数据的“洞察”很难有意义。

虽然数据预处理步骤可能相当乏味,但Pandas提供了所有必要的功能,使我们能够相对轻松地完成数据清理工作。然而,由于其多功能性,不是每个用户都知道pandas库所提供的所有功能。在本文中,我想分享3个鲜为人知但非常有用的函数,你可以在你的数据科学项目中尝试使用。

废话不多说,让我们开始吧。

注意:为了提供上下文,假设你负责一家服装店的数据管理和分析。下面的示例都基于这个假设。

1. explode

我想提到的第一个函数是explode。当你处理包含列表的列中的数据时,这个函数非常有用。当你使用explode处理这一列时,你可以通过将列表中的每个元素提取到单独的行中,创建多行。

下面是一个简单的代码示例,展示了如何使用explode函数。假设你有一个存储订单信息的数据框。在这个表中,你有一个列(即order列),其中包含了项目的列表,如下所示:

order_data = {    'customer': ['John', 'Zoe', 'Mike'],    'order': [['鞋子', '裤子', '帽子'], ['夹克', '短裤'], ['领带', '连帽衫']]}order_df = pd.DataFrame(order_data)order_df

尝试这三个较少知名的Pandas函数 四海 第2张

所需的操作是将列表中的每个项目拆分为单独的行,以便进行进一步的数据处理。如果不使用explode,一个简单的解决方案可能是以下这样。我们只需迭代原始行…

Leave a Reply

Your email address will not be published. Required fields are marked *