尝试这三个较少知名的Pandas函数

使用pandas提高数据处理技能

如果你问任何有经验的数据科学家和机器学习工程师，他们工作中花费最多时间的是什么？我猜其中很多人会说：数据预处理-一种清理数据并为顺序数据分析做准备的步骤。原因很简单-垃圾进，垃圾出。也就是说，如果你不正确地准备数据，你对数据的“洞察”很难有意义。

虽然数据预处理步骤可能相当乏味，但Pandas提供了所有必要的功能，使我们能够相对轻松地完成数据清理工作。然而，由于其多功能性，不是每个用户都知道pandas库所提供的所有功能。在本文中，我想分享3个鲜为人知但非常有用的函数，你可以在你的数据科学项目中尝试使用。

废话不多说，让我们开始吧。

注意：为了提供上下文，假设你负责一家服装店的数据管理和分析。下面的示例都基于这个假设。

1. explode

我想提到的第一个函数是explode。当你处理包含列表的列中的数据时，这个函数非常有用。当你使用explode处理这一列时，你可以通过将列表中的每个元素提取到单独的行中，创建多行。

下面是一个简单的代码示例，展示了如何使用explode函数。假设你有一个存储订单信息的数据框。在这个表中，你有一个列（即order列），其中包含了项目的列表，如下所示：

order_data = {    'customer': ['John', 'Zoe', 'Mike'],    'order': [['鞋子', '裤子', '帽子'], ['夹克', '短裤'], ['领带', '连帽衫']]}order_df = pd.DataFrame(order_data)order_df

尝试这三个较少知名的Pandas函数四海第2张

所需的操作是将列表中的每个项目拆分为单独的行，以便进行进一步的数据处理。如果不使用explode，一个简单的解决方案可能是以下这样。我们只需迭代原始行…