源文件:research/quant_digests/2026-03-27_0608_dynamic-scaling-quote-spread-meanreversion.md
这篇材料的 headline 是 RL pair trading,但对我们 desk 更值钱的不是“上来就训 A2C/PPO”,而是它清楚给了一个更可落地的旁支:
> base alpha 仍然是同币多报价的短周期 spread mean reversion;真正值得先复现的是“仓位随偏离强度动态缩放”,而不是先上完整 RL 栈。
这很适合当前 1m/3m/5m/15m 的研发顺序:
10.3390/jrfm17120555论文在 Binance 的 BTCGBP / BTCEUR 上做 1m 高频 pairs。流程并不花哨:
open threshold = 1.8close threshold = 0.4window size = 900 intervals在论文的 0.02% 交易费假设下,测试期(2023-12)结果:
同时,RL2 的总 action count 是 229,低于 Gatev 的 490,说明论文里更像是:
这就是我们该拿走的 desk 分支: 把“spread 偏离强度 → 仓位大小”做成明确 sizing ladder。
把论文翻成我们能最快上线实验的版本:
以同币多报价为例(例如 BTCUSDT/BTCUSDC、BTCUSDT/BTCFDUSD、ETHUSDT/ETHFDUSD):
|z| > z_open|z| < z_close 或持有满 N 根|z| 分层2.0 ~ 2.5σ:1.0x2.5 ~ 3.0σ:1.5x> 3.0σ:2.0xapi/v3/klines5m45dBTCUSDT / BTCUSDCBTCUSDT / BTCFDUSDETHUSDT / ETHUSDCETHUSDT / ETHFDUSD288 根(约 1 天)计算 z-score|z| > 2 触发事件12 根(约 1 小时)spread 是否回归#### BTCUSDT / BTCUSDC
|z| ∈ [2, 2.5):平均 1h 回归 0.91 bp,胜率 84.0%|z| ∈ [2.5, 3):平均 1h 回归 1.10 bp,胜率 84.9%|z| ≥ 3:平均 1h 回归 1.74 bp,胜率 96.5%#### ETHUSDT / ETHFDUSD
|z| ∈ [2, 2.5):平均 1h 回归 1.26 bp,胜率 71.7%|z| ∈ [2.5, 3):平均 1h 回归 1.64 bp,胜率 77.9%|z| ≥ 3:平均 1h 回归 2.20 bp,胜率 80.2%用最粗糙的确定性 size ladder:
[2, 2.5) → 1.0x[2.5, 3) → 1.5x[3, +∞) → 2.0x在同样的事件集上,按“未来 1 小时 spread 收敛 bp × 仓位权重”算,较固定 1x 的 gross convergence-unit 提升:
BTCUSDT/BTCUSDC:+31.2%BTCUSDT/BTCFDUSD:+37.7%ETHUSDT/ETHUSDC:+31.9%ETHUSDT/ETHFDUSD:+35.5%这不是正式回测,但已经足够说明: 论文里最值得先搬的,很可能不是 RL 本身,而是“强偏离打更大、弱偏离打更小”的 sizing 逻辑。
相关 artifact:
/root/clawd/jerry/momentum/reports/artifacts/quant_digests/rl2_dynamic_sizing_quote_spread_probe_20260327_0608/sizing_comparison.csv/root/clawd/jerry/momentum/reports/artifacts/quant_digests/rl2_dynamic_sizing_quote_spread_probe_20260327_0608/bucket_convergence.csv/root/clawd/jerry/momentum/reports/artifacts/quant_digests/rl2_dynamic_sizing_quote_spread_probe_20260327_0608/summary.jsonspread = log(p_a / p_b)|z| > 2 入场|z| < 0.5 平仓max_hold = 12~24 barssize ∝ min(|z|-2, cap))1m / 3m / 5m 分别跑同币多报价 pairsz_open ∈ {2.0, 2.25, 2.5},z_close ∈ {0.25, 0.5, 0.75}1x1x/1.5x/2x把样本按:
做分层,确认“|z| 越大 → 回归越强”是否跨 regime 稳定。
只有在下面三条都成立时,才值得往 RL 走:
否则,RL 大概率只是把一个本来就薄的 alpha 包装得更复杂。
这篇 2024 新论文对我们最值钱的不是“用 RL 预测交易动作”,而是更朴素的那句:
> 同币多报价 spread 回归这件事,仓位不该一刀切;越极端的偏离,越值得给更大的 size。
对短周期 desk 来说,这已经足够成为一个可独立复现、可直接落地的完整策略版本,而且第一步完全不需要先上 RL。