时间序列的Pandas

Python中的数据处理

本文介绍了pandas用于时间序列的方法。让我们像专业人士一样处理时间序列。

自从我作为数据科学家加入工作队伍以来，我处理的大部分数据都是时间序列。嗯，对于时间序列，有很多定义，通常被定义为在一段时间内收集的数据点集合。或者用Python的方式来说，它指的是具有日期时间索引和至少一个带有数值的列的数据集。

它可以是过去几个月的股票价格，过去几周的超市销售额，甚至是几个月内为患者收集的血糖水平记录。

在本文中，我将展示如何将pandas应用于时间序列数据集，并以生成的血糖水平记录为例。

因此，本文将按以下结构进行：

日期时间格式操作 – 将日期时间序列更改为所需格式
将日期时间转换为特定周期 – 将每个数据点转换为特定的时间周期
基于条件过滤日期时间序列 – 根据选定的时间周期过滤数据点
时间偏移 – 将数据点下移特定的周期数
重新采样时间序列 – 根据指定的时间周期对数据点进行分组
线图

让我们开始吧！

像往常一样，使用Python进行任何分析的第一步是导入必要的库。

导入库

import pandas as pdimport randomimport numpy as npfrom datetime import datetime

创建数据

然后，让我们为此演示生成一个血糖水平记录数据集。

def create_demo_data():    random.seed(365)    np.random.seed(365)    number_of_data_rows = 2160        # 生成日期列表    dates = pd.bdate_range(datetime(2020, 7, 1), freq='4H', periods=number_of_data_rows).tolist()        # 创建一个字典...