量化交易需聚焦可预测目标(如涨跌概率、波动率),用滚动窗口验证避免过拟合,重视特征工程而非模型复杂度,并将预测结果转化为带风控的交易动作。

量化交易不是靠直觉猜涨跌,而是用数据和逻辑说话。想从零开始做预测分析,关键不在 工具 多炫酷,而在理解“为什么 这样建模”“模型错在哪”“结果能不能真用”。下面这些方法,是实盘中反复验证过、新手也能上手的路径。
先搞懂你要预测的到底是什么
很多人一上来就调库跑lstm,结果发现预测价格毫无意义——因为单点价格不可预测,但价格变化的方向、波动率、突破概率、回归强度,这些是可以建模的。比如:
- 预测“未来 5 分钟是否大概率上涨超 0.3%”,比预测“下一根 K 线收盘价”更现实;
- 预测“当前波动率是否进入高位收敛区间”,比预测“明天涨还是跌”更容易验证;
- 用订单流数据预测短期流动性缺口,比单纯看均线交叉更有微观基础。
每次建模前,花 10 分钟问自己:这个目标可测量吗?有业务含义吗?错了我能知道 为什么 吗?
用滚动窗口 + 样本外验证代替“全量拟合”
把 2015–2023 年数据一股脑喂给模型,然后在 2024 年实盘崩盘——这是最常见失败原因。市场结构会变,模型必须学会“边走边学”。建议:
- 训练集只用最近 120 天数据,每天更新一次模型(哪怕只是重训逻辑回归);
- 永远保留最近 30 天作为滚动验证集,不参与训练,只用于评估信号胜率、盈亏比、最大回撤;
- 一旦验证期内连续 5 天信号准确率低于 52%,自动暂停信号输出,触发人工复盘。
这不是过度保守,而是让模型对真实市场节奏保持敏感。
特征工程比模型选择重要十倍
Random Forest 和 XGBoost 在相同特征下表现接近,但换一组带量价背离、挂单薄厚比、跨周期 RSI 斜率的特征,效果可能翻倍。实操建议:
- 从“行为痕迹”出发构造特征:比如“过去 20 笔主动买单中,有多少比例击穿了卖一档以上”,反映攻击强度;
- 避免直接用原始价格:改用标准化后的 Z -score、同比变化率、分位数位置(如当前价格处于近 60 分钟第 92 百分位);
- 加入滞后项但控制长度:最多用 T - 1 到 T - 5 的特征,超过 T -10 的信息往往已定价,还引入噪声。
一个好特征,应该能一句话讲清它的市场含义,而不是靠 SHAP 值“解释出来才懂”。
把预测结果翻译成可执行的交易动作
模型输出“上涨概率 73%”,不等于“立刻开多单”。中间必须加一层决策层:
- 设定概率阈值:只有>68% 才触发信号,且需同时满足波动率
- 动态调整仓位:概率每高 5 个百分点,仓位增加 10%,但单笔不超过总资金 2%;
- 内置退出逻辑:入场后若 1 分钟内未达预期方向,或波动率突增 40%,无条件平仓。
预测是输入,交易是输出,中间那层“规则引擎”,才是你真正的策略护城河。
基本上就这些。不复杂,但容易忽略——真正卡住新手的,从来不是代码写不对,而是问题没定义清楚、验证没跑扎实、信号没接进交易流。把这四步走稳,比追新模型快得多。