滑动窗口是将时序数据转为监督学习问题的基础方法:用过去 n 个时刻值预测未来 1 个或多个时刻值;如序列 [100,120,110,130,140,135,150] 取窗口大小 3,得 4 个样本,每样本以连续 3 值为输入、后 1 值为标签;窗口大小需权衡模式学习与噪声干扰,宜结合周期性、自相关分析及验证集评估;多步预测可选多输出模型或 递归 滚动方式;预处理需注意缺失值填充、标准化及时间顺序划分。

滑动窗口是时间序列预测中最基础也最实用的建模策略,它把一维时序数据转换成监督学习问题,让回归模型(如 线性回归、随机森林、lstm)能直接使用。核心思想很简单:用过去 n 个时刻的观测值,预测未来第 1 个(或多个)时刻的值。
什么是滑动窗口?怎么构造样本?
假设你有一组按天记录的销量数据:[100, 120, 110, 130, 140, 135, 150],窗口大小设为 3:
- 第 1 个样本:输入 [100, 120, 110] → 预测 130
- 第 2 个样本:输入 [120, 110, 130] → 预测 140
- 第 3 个样本:输入 [110, 130, 140] → 预测 135
- 第 4 个样本:输入 [130, 140, 135] → 预测 150
这就是“滑动”——每次往前挪一个时间步,截取固定长度的历史片段作为特征,紧邻的下一个值作标签。注意:原始序列长度为 N,窗口大小为 w,最终得到 N − w 条训练样本。
窗口大小怎么选?不是越大越好
窗口太小,模型学不到足够模式;太大,可能引入无关远期信息,还容易过拟合噪声。实际中建议从经验出发再微调:
立即学习“Python 免费学习笔记(深入)”;
- 对日频数据(如销售、访问量),常见窗口为 7(周周期)、14、30(月趋势)
- 对小时级数据(如服务器负载),试 24(日周期)、48、72
- 用自相关图(
plot_acf)观察显著滞后阶数,窗口可略大于该阶数 - 在验证集上交叉验证不同窗口下的 MAE/RMSE,选稳定且泛化好的值
多步预测怎么做?直接输出 or 递归滚动?
预测未来 3 天,有两种主流方式:
- 多输出模型:每个样本标签不再是单个值,而是向量,如
[y_t+1, y_t+2, y_t+3]。适合 LSTM、MLP 等天然支持向量输出的模型 - 递归预测:训练单步模型,用预测值不断“喂回”窗口。例如预测完第 1 天,把它加入窗口末尾,滑动后预测第 2 天。简单但误差会累积
- 实践中可先用多输出做 baseline,再用递归 + 校准(如残差修正)提升长程稳定性
别忘了对齐与预处理细节
滑动窗口本身不解决数据质量问题,但会放大问题:
- 缺失值必须提前填充或插值,否则窗口内出现 NaN 会导致整条样本失效
- 强烈建议对输入做标准化(如
StandardScaler),尤其当特征含不同量纲(如温度 + 销量)时 - 若目标变量波动剧烈,可先做对数变换或 Box-Cox 再建模,预测后再逆变换
- 测试集划分要严格按时间顺序——不能随机打乱,也不能用未来数据“窥探”过去
基本上就这些。滑动窗口不复杂但容易忽略细节,真正影响效果的往往不是模型多先进,而是窗口设计是否贴合业务节奏、数据是否对齐真实依赖关系。