DataFrame合并的3个Pandas函数

学习如何使用代码示例了解Pandas合并函数的工作原理

在数据工作中，通常会有来自数据源或数据分析结果的多个数据集。

有时，我们希望将两个或多个不同的数据集合并在一起，出于各种原因。例如：

我们希望将来自多个数据源的数据集集成到一个数据集中进行深入分析
我们希望从一个数据集中执行缺失值插补到另一个数据集中
我们将数据集拆分为每个数据集上执行不同分析，并希望将它们返回到一个数据集中

使用Pandas包中提供的函数可以合并数据集。在本文中，我们将学习三个不同的合并函数，并附带编码示例。让我们开始吧。

1. merge

merge函数是Pandas中用于执行基本数据集合并的首选函数。该函数将根据给定的数据集索引或列合并两个数据集。

例如，让我们创建一个数据集示例来展示merge函数的工作原理。

import pandas as pdcustomer = pd.DataFrame({'cust_id': [1,2,3,4,5],                    'cust_name': ['Maria', 'Fran', 'Dominique', 'Elsa', 'Charles'],                   'country': ['德国', '西班牙', '日本', '波兰', '阿根廷']})order = pd.DataFrame({'order_id': [200, 201,202,203,204],                      'cust_id':[1,3,3,4,2],                      'order_date': ['2014-07-05', '2014-07-06', '2014-07-07', '2014-07-07', '2014-07-08'],                      'order_value': [10.1, 20.5, 18.7, 19.1, 13.5]})

在上面的示例中，我们试图模拟两个不同的数据集：客户和订单数据，其中DataFrame中都存在cust_id列。

让我们执行DataFrame合并以更好地理解该函数。

pd.merge(customer, order)

默认情况下，merge函数已经设置了一些默认值：