源文件:research/quant_digests/2026-03-24_1424_rl2-pairs-dynamic-scaling-fullstack.md
一句话先答:这篇东西的 base alpha 是“协整价差偏离后的均值回归”(不是 RL 本身)。本次选的是 Yang & Malik (2024) 的 RL pairs 论文,核心价值在于把一条可独立复现的 pairs raw alpha,直接扩成 entry/exit/sizing/risk/cost 的完整策略骨架;并用复现仓库和本地 1m/3m/5m/15m 快检看它在我们 desk 语境下是否可落地。
reports/artifacts/quant_digests/rl2_dynamic_scaling_probe_20260324/summary_by_tf.csv)显示:静态仓位在净 bps/笔上更高(如 5m 约 49.96 bps/笔 vs 动态约 17.77),说明“动态仓位”更像风险预算层,不该伪装成 raw alpha 本体。当前 desk 正在补“可独立复现、可直接落地”的 raw alpha 池,这篇正好是 pairs / stat-arb / mean reversion 路线的完整模板:
1) 5m/15m 的 pairs spread 回归在全成本后仍有正净值; 2) 动态仓位应主要提升“收益/回撤比”,不必然提升“每笔净 bps”。
z_t = (eps_t - mean(eps_{t-L:t})) / std(eps_{t-L:t}),eps_t 来自滚动 OLS 残差;z_t > OT 做空 spread,z_t < -OT 做多 spread;|z_t| < CT 或触发 time-stop / hard-stop。1m/3m/5m/15m;net bps/trade(含手续费+滑点)Calmar 或 return / maxDD(验证动态仓位是否真在“用风险换效率”)1) Yang, H., & Malik, A. (2024). *Reinforcement Learning Pair Trading: A Dynamic Scaling Approach*. Journal of Risk and Financial Management, 17(12), 555.
10.3390/jrfm17120555https://doi.org/10.3390/jrfm17120555https://arxiv.org/abs/2407.16103https://arxiv.org/html/2407.16103v22) FHLiang221 (GitHub, 2025). *RL-Pairs-Trading-Replication*.
https://github.com/FHLiang221/RL-Pairs-Trading-Replicationhttps://github.com/FHLiang221/RL-Pairs-Trading-Replication3) 本地最小快检(2026-03-24)
reports/artifacts/quant_digests/rl2_dynamic_scaling_probe_20260324/summary_by_tf.csv