← 返回 Quant Digests · 站点首页

别先训 RL:这篇 2024 论文更适合先复现的是「同币多报价价差回归 + 按 |z| 分层加仓」

更新时间:2026-03-27 06:11 UTC

源文件:research/quant_digests/2026-03-27_0608_dynamic-scaling-quote-spread-meanreversion.md

1. 为什么这次值得进池

这篇材料的 headline 是 RL pair trading,但对我们 desk 更值钱的不是“上来就训 A2C/PPO”,而是它清楚给了一个更可落地的旁支:

> base alpha 仍然是同币多报价的短周期 spread mean reversion;真正值得先复现的是“仓位随偏离强度动态缩放”,而不是先上完整 RL 栈。

这很适合当前 1m/3m/5m/15m 的研发顺序:

  1. 先确认同币多报价 spread 在短周期上是否真的回归;
  2. 再确认 |z| 越大,后续回归幅度是否也越大
  3. 若成立,就先用确定性分层 sizing吃掉大部分 paper edge,没必要第一步就做 RL 训练、奖励塑形和高算力调参。

2. 论文里真正值得抄的那一段

2.1 核心材料

2.2 论文做了什么

论文在 Binance 的 BTCGBP / BTCEUR 上做 1m 高频 pairs。流程并不花哨:

2.3 最重要的结果不是“RL 神奇”,而是“动态缩放有价值”

在论文的 0.02% 交易费假设下,测试期(2023-12)结果:

同时,RL2 的总 action count 是 229,低于 Gatev 的 490,说明论文里更像是:

这就是我们该拿走的 desk 分支: 把“spread 偏离强度 → 仓位大小”做成明确 sizing ladder。

3. desk 化翻译:先别复现 RL,先复现这个更小的版本

把论文翻成我们能最快上线实验的版本:

3.1 最小策略骨架

以同币多报价为例(例如 BTCUSDT/BTCUSDCBTCUSDT/BTCFDUSDETHUSDT/ETHFDUSD):

4. 我们自己的最小快检(Binance Spot 公共 5m 数据,近 45 天)

4.1 数据口径

4.2 结果:偏离越大,1 小时回归幅度通常越大

#### BTCUSDT / BTCUSDC

#### ETHUSDT / ETHFDUSD

4.3 结果:简单分层 sizing,相比固定 1x 有明显提升

用最粗糙的确定性 size ladder:

在同样的事件集上,按“未来 1 小时 spread 收敛 bp × 仓位权重”算,较固定 1x 的 gross convergence-unit 提升:

这不是正式回测,但已经足够说明: 论文里最值得先搬的,很可能不是 RL 本身,而是“强偏离打更大、弱偏离打更小”的 sizing 逻辑。

相关 artifact:

5. 这东西怎么直接落成完整策略

entry

exit

sizing

risk

cost

6. 我会怎么排“下一步怎么测”

P0:先做 deterministic 版本,不碰 RL

  1. 1m / 3m / 5m 分别跑同币多报价 pairs
  2. 固定 z_open ∈ {2.0, 2.25, 2.5}z_close ∈ {0.25, 0.5, 0.75}
  3. 对比两种 sizing:
  1. 输出:净收益、每事件净 bp、胜率、平均持有时间、手续费敏感性

P1:验证“仓位随偏离增大”到底是不是稳的

把样本按:

P2:再决定是否值得上 ML / RL

只有在下面三条都成立时,才值得往 RL 走:

否则,RL 大概率只是把一个本来就薄的 alpha 包装得更复杂。

7. 一句话结论

这篇 2024 新论文对我们最值钱的不是“用 RL 预测交易动作”,而是更朴素的那句:

> 同币多报价 spread 回归这件事,仓位不该一刀切;越极端的偏离,越值得给更大的 size。

对短周期 desk 来说,这已经足够成为一个可独立复现、可直接落地的完整策略版本,而且第一步完全不需要先上 RL。