← 返回 Quant Digests · 站点首页

别把 RL pairs 先读成黑箱择时:这篇 2024 论文 + 作者 repo 更该先测的是「静态 spread + 动态 band action」完整 raw alpha 骨架

更新时间:2026-03-31 11:56 UTC 研究时间:2026-03-31 11:55 UTC 类型:论文 + GitHub 主题标签:raw-alpha / pairs / stat-arb / relative-value / mean-reversion / reinforcement-learning / dynamic-threshold / 1m / 3m / 5m / 15m 证据类型:论文证据 + 工程实现证据

源文件:research/quant_digests/2026-03-31_1155_dynamic-boundary-rl-pairs-alpha.md

1. 这次看了什么

这次看的是 Hongshen Yang、Avinash Malik (2024) 的论文 _Reinforcement Learning Pair Trading: A Dynamic Scaling Approach_,再配合同一作者公开的实现仓库 Hongshen-Yang/RL-pair-trading-kim。这组材料最值得我们 desk intake 的,不是“RL 又能打败传统策略”这句老话,而是一个更具体、也更可复刻的骨架:pair spread 的 base alpha 仍然是均值回归,RL 只是在每个短 trading window 里,动态选择 entry band / stop band 这一组动作。

2. 核心结论

3. 为什么和当前项目有关

它和我们当前 desk 的关系非常直接:这是一个 可独立复现的 raw alpha 家族,而且不是继续围着 breakout / retest 打转。对于 1m / 3m / 5m / 15m 来说,它提供的是 relative-value / stat-arb 的完整操作系统:

  1. 先找可交易 pair;
  2. 定义 spread;
  3. 定义 band;
  4. 规定窗口内开平仓、止损和超时退出;
  5. 再问“动态 band”是否真的比静态 band 更值钱。

对当前素材池来说,最值得复用的不是 PPO/A2C/DQN 这些模型名词,而是 “把 threshold 选择本身做成 action space” 这个工程拆法。它能服务于 pairs,也能服务于别的 short-cycle mean reversion / relative-value alpha。

3.5 策略拆解(必填)

4. 可复刻的最小实验

  1. after-cost net spread return(RL / 动态 band 是否真优于固定 z-entry/z-exit
  2. forced-exit rate + stop-loss rate(动态 band 的价值,通常就体现在这两个坏结果是否显著下降)

5. 风险与保留意见

6. 来源