Python时间序列数据处理_索引与重采样方法【教程】

2次阅读

时间序列处理核心是索引为 DatetimeIndex 且有序，重采样通过 resample 按 rule 聚合；需用 pd.to_datetime 和 set_index 设索引、sort_index 排序；注意 closed 方向、时区及 offset 对齐。

Python 时间序列数据处理_索引与重采样方法【教程】

时间序列数据在 python 中处理的核心是让索引具备时间语义，并通过重采样实现频率转换。关键在于：索引必须是DatetimeIndex，且数据需按时间排序；重采样不是简单插值，而是按新频率对原始数据做聚合（如求和、均值）或下采样 / 上采样。

很多问题源于索引未正确设置或未排序：

resample()本质是分组操作，按新频率切分时间窗口后应用聚合函数：

rule参数写法要准确：’D’（日）、’M’（月末）、’MS’（月初）、’15T’（15 分钟）、’2H’（2 小时）
聚合方式决定结果含义：下采样常用 .mean()（均值）、.sum()（累计量）、.first()（首值）；上采样需配合.ffill() 或.interpolate()
注意闭合方向：closed='left'表示窗口左闭右开（默认），影响边界点归属，例如 resample('M').sum() 默认统计当月 1 日至下月 1 日 0 时前的数据

真实数据常有缺失或跳跃，需主动干预：

重采样后自动引入 NaN：若某时间段无原始数据，对应结果即为NaN；可用.fillna() 或.bfill()填充
避免“隐式填充”：不要依赖 asfreq() 代替resample()，它只是对齐频率、不聚合，易造成数据误读
对不规则高频数据（如 传感器 秒级记录），先 resample('1Min').mean() 降频，再用 .dropna() 清理全空窗口，比插值更稳健

跨时区或需按自然周期（如工作日、财年）汇总时：

带时区的索引更可靠：df.index = df.index.tz_localize('Asia/Shanghai') 或 .tz_convert('UTC')，避免夏令时歧义
用 offset 参数调整对齐点：例如 resample('M', offset='1D') 让每月汇总从 2 号开始，而非默认的 1 号
财务周期可用'BM'（月末营业日）、'BQS-JUN'（6 月结束的季度营业日），比手动过滤更简洁

发表于：后端开发

近一天内

复制链接

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

Meme币是什么时候出现的_Meme币出现时间背景

Java DOM Level 3 Core是什么新增了哪些功能