Python中的数据处理
本文介绍了pandas用于时间序列的方法。让我们像专业人士一样处理时间序列。

自从我作为数据科学家加入工作队伍以来,我处理的大部分数据都是时间序列。嗯,对于时间序列,有很多定义,通常被定义为在一段时间内收集的数据点集合。或者用Python的方式来说,它指的是具有日期时间索引和至少一个带有数值的列的数据集。
它可以是过去几个月的股票价格,过去几周的超市销售额,甚至是几个月内为患者收集的血糖水平记录。
在本文中,我将展示如何将pandas应用于时间序列数据集,并以生成的血糖水平记录为例。
因此,本文将按以下结构进行:
- 日期时间格式操作 – 将日期时间序列更改为所需格式
- 将日期时间转换为特定周期 – 将每个数据点转换为特定的时间周期
- 基于条件过滤日期时间序列 – 根据选定的时间周期过滤数据点
- 时间偏移 – 将数据点下移特定的周期数
- 重新采样时间序列 – 根据指定的时间周期对数据点进行分组
- 线图
让我们开始吧!
像往常一样,使用Python进行任何分析的第一步是导入必要的库。
导入库
import pandas as pdimport randomimport numpy as npfrom datetime import datetime
创建数据
然后,让我们为此演示生成一个血糖水平记录数据集。
def create_demo_data(): random.seed(365) np.random.seed(365) number_of_data_rows = 2160 # 生成日期列表 dates = pd.bdate_range(datetime(2020, 7, 1), freq='4H', periods=number_of_data_rows).tolist() # 创建一个字典...