源文件:research/quant_digests/2026-03-31_1155_dynamic-boundary-rl-pairs-alpha.md
这次看的是 Hongshen Yang、Avinash Malik (2024) 的论文 _Reinforcement Learning Pair Trading: A Dynamic Scaling Approach_,再配合同一作者公开的实现仓库 Hongshen-Yang/RL-pair-trading-kim。这组材料最值得我们 desk intake 的,不是“RL 又能打败传统策略”这句老话,而是一个更具体、也更可复刻的骨架:pair spread 的 base alpha 仍然是均值回归,RL 只是在每个短 trading window 里,动态选择 entry band / stop band 这一组动作。
1m 数据上,对 BTC-GBP 与 BTC-EUR 做 pair trading,比较传统静态边界和 RL 动态边界;论文摘要给出的结果是:传统非 RL 年化利润约 8.33%,RL 版本约 9.94% ~ 31.53%,样本量 n = 263,520。entry threshold + stop-loss threshold;默认 trading window = 15、formation/lookback 例子是 30。env_kim.py 还把规则明文化了:若 |z| 先穿 entry band 就开仓;若后续 z-score 过零就平仓;若穿 stop band 就止损;若到窗口末尾还没收敛就 forced exit。这已经是一个能直接写成 entry / exit / risk / cost 的完整短周期策略。2023-10 ~ 2023-11 训练、2023-12 测试 的 Binance spot BTCEUR / BTCGBP 例子里,PPO / A2C / DQN 的 net worth 最后大约掉到 0.61 / 0.75 / 0.65。也就是说,动态 band 这个想法值得 intake,但“RL 一上就赢”完全不该先验相信。1m 样本上的 out-of-sample 策略对照;repo 则把动作空间、reward shaping、成本参数和最近样本失败案例都暴露出来,方便我们做诚实 transfer check。它和我们当前 desk 的关系非常直接:这是一个 可独立复现的 raw alpha 家族,而且不是继续围着 breakout / retest 打转。对于 1m / 3m / 5m / 15m 来说,它提供的是 relative-value / stat-arb 的完整操作系统:
对当前素材池来说,最值得复用的不是 PPO/A2C/DQN 这些模型名词,而是 “把 threshold 选择本身做成 action space” 这个工程拆法。它能服务于 pairs,也能服务于别的 short-cycle mean reversion / relative-value alpha。
dynamic band selection 能通过少做差交易、早切坏交易,提升 after-cost spread return,哪怕 base alpha 仍然只是普通的均值回归。15 根 bar 组成一个 trading window;用过去 30 根 bar 估计 ODR/TLS spread 残差并转成 z-score;动作空间固定为 6 组 (entry, stop),例如 repo 里的 0.5/2.5 到 3.0/5.0;当 |z| 穿 entry 开仓,z 过零平仓,穿 stop 止损,窗口结束强制平仓。BTCUSDT/BTCFDUSD、ETHUSDT/ETHFDUSD)的 1m 与 5m;若这个最干净的 sandbox 都跑不赢静态 band,再考虑更泛化的 majors pair 或跨 venue pair。after-cost net spread return(RL / 动态 band 是否真优于固定 z-entry/z-exit)forced-exit rate + stop-loss rate(动态 band 的价值,通常就体现在这两个坏结果是否显著下降)static z>1.5 entry / z-cross-0 exit / z>3.5 stop / 15-bar timeout 对比 dynamic action policy;先不追求 SOTA,只追求它是否在最近样本里仍有稳定增益。BTC-GBP / BTC-EUR 这种同底层、不同法币报价腿,天然比普通币对更容易出现可回归 spread;把它迁移到更一般的 crypto pairs,难度明显更高。tc = 0.002,也就是相当重的成本假设;这对 1m stat-arb 很诚实,但也说明:这类策略不是先问方向准不准,而是先问时间止损和坏交易切断够不够快。10.3390/jrfm17120555https://doi.org/10.3390/jrfm17120555https://www.mdpi.com/1911-8074/17/12/555/pdf?version=1733886143https://github.com/Hongshen-Yang/RL-pair-trading-kim10.1155/2019/3582516https://doi.org/10.1155/2019/3582516https://downloads.hindawi.com/journals/complexity/2019/3582516.pdf