Press "Enter" to skip to content

时间序列的Pandas

Python中的数据处理

本文介绍了pandas用于时间序列的方法。让我们像专业人士一样处理时间序列。

Aron Visuals在Unsplash上的照片

自从我作为数据科学家加入工作队伍以来,我处理的大部分数据都是时间序列。嗯,对于时间序列,有很多定义,通常被定义为在一段时间内收集的数据点集合。或者用Python的方式来说,它指的是具有日期时间索引和至少一个带有数值的列的数据集。

它可以是过去几个月的股票价格,过去几周的超市销售额,甚至是几个月内为患者收集的血糖水平记录。

在本文中,我将展示如何将pandas应用于时间序列数据集,并以生成的血糖水平记录为例。

因此,本文将按以下结构进行:

  1. 日期时间格式操作 – 将日期时间序列更改为所需格式
  2. 将日期时间转换为特定周期 – 将每个数据点转换为特定的时间周期
  3. 基于条件过滤日期时间序列 – 根据选定的时间周期过滤数据点
  4. 时间偏移 – 将数据点下移特定的周期数
  5. 重新采样时间序列 – 根据指定的时间周期对数据点进行分组
  6. 线图

让我们开始吧!

像往常一样,使用Python进行任何分析的第一步是导入必要的库。

导入库

import pandas as pdimport randomimport numpy as npfrom datetime import datetime 

创建数据

然后,让我们为此演示生成一个血糖水平记录数据集。

def create_demo_data():    random.seed(365)    np.random.seed(365)    number_of_data_rows = 2160        # 生成日期列表    dates = pd.bdate_range(datetime(2020, 7, 1), freq='4H', periods=number_of_data_rows).tolist()        # 创建一个字典...
Leave a Reply

Your email address will not be published. Required fields are marked *