← 返回 Quant Digests · 站点首页

别把这份 2026 多 venue 新 repo 只读成“大而全研究脚手架”:对 short-cycle desk,更该先抄的是「cointegration spread raw alpha × ML entry filter × venue-tier risk stack」这条完整策略壳

更新时间:2026-04-03 05:08 UTC 研究时间:2026-04-03 05:04 UTC 类型:2026 GitHub 新仓库 `README.md + config/config.yaml + docs/methodology.md` 审阅 + 经典 pairs 文献地基交叉 主题标签:raw-alpha/pairs/stat-arb/relative-value/mean-reversion/cointegration/ml-filter/venue-tier/risk-stack/multi-venue/5m/15m/1m/3m/repo/public-data/cost 证据类型:repo(完整策略壳)+ config/methodology(参数与成本)+ classic paper(方法地基)

源文件:research/quant_digests/2026-04-03_0504_multivenue-coint-ml-filter-pairs-alpha.md

1. 这次看了什么

这轮更值得 intake 的,不是再抄一个“复杂模型选币器”,而是这份 2026 新 repo 其实已经把一条 pairs / stat-arb raw alpha 的完整策略壳 摆得很齐:

  1. 先在多 venue universe 里筛流动性足够、协整显著的候选 pair;
  2. 用 spread z-score 做 均值回复入场
  3. ML 只做 entry/exit timing enhancement,不篡位成 alpha 本体;
  4. half-life、venue tier、sector/correlation cap、Kelly fraction、cost model 把它包成可交易组合;
  5. 明确写了训练/测试、交易成本、无杠杆和 walk-forward 壳。

所以这轮最该带走的一句话是:

> base alpha 不是“GBM / RF 能预测收益”,而是 cointegrated spread mean reversion;ML 只是确认层,venue-tier risk stack 才是让它能活着上线的交易壳。

这和最近几轮学习进展是互补的:最近 raw alpha 池里,directional、carry、microstructure、cross-sectional 已经堆得不少;但 能把 entry / exit / sizing / risk / cost 一次讲全的 market-neutral pairs 母板 仍然值得继续补。

2. 先回答一句:这篇东西的 base alpha 是什么?

base alpha 很清楚:协整价差均值回复。

不是:

真正的 alpha 是:

翻成人话: 赚的钱来自“走散之后会回去”,不是来自模型名字更花。

3. 为什么这轮值得写,而不是继续补一张 generic directional 卡

如果拿当前 desk 的优先级看,这个主题仍然值得进池,原因有四个:

  1. 它是 raw alpha,不是 filter。
  1. 它直接给了完整策略壳。
  1. 它把 ML 放在正确位置。
  1. 它补的是 market-neutral 素材池。

如果要问:它为什么比继续补 raw directional alpha 更值得? 答案是: 因为它补上的不是一个点子,而是一整套 pairs 生产线母板。 这套母板以后可以接 cointegration、Kalman、copula、graph matching、funding gate、execution veto 等很多旁支。

3.5 策略拆解(必填)

4. 这次看的主来源

4.1 alpha / 工程主来源(repo)

  1. Tamer Atesyakar (2026)
  2. Title: *Crypto Statistical Arbitrage* Venue: GitHub repository DOI: N/A Readable URL / Repo URL: https://github.com/abailey81/Crypto-Statistical-Arbitrage 作者/仓库页署名: Tamer Atesyakar 创建时间: 2026-03-13T16:54:17Z 实际看的文件: README.md, config/config.yaml, docs/methodology.md

4.2 方法地基(classic foundation)

  1. Engle, R. F.; Granger, C. W. J. (1987)
  2. Title: *Co-Integration and Error Correction: Representation, Estimation, and Testing* Venue: *Econometrica* DOI: 10.2307/1913236 Readable URL: https://www.jstor.org/stable/1913236 Repo URL: N/A

  1. Gatev, E.; Goetzmann, W. N.; Rouwenhorst, K. G. (2006)
  2. Title: *Pairs Trading: Performance of a Relative-Value Arbitrage Rule* Venue: *Review of Financial Studies* DOI: 10.1093/rfs/hhj020 Readable URL: https://academic.oup.com/rfs/article/19/3/797/1646694 Repo URL: N/A

5. 这条 alpha 到底有哪些硬信息,不是空想

5.1 这份 repo 不是只给概念,它把参数壳写得很细

README.mdconfig/config.yaml,至少能确认这些关键参数:

这已经不是“有个想法”,而是 直接能翻译成 backtest config 的策略骨架

5.2 这份材料真正值钱的,不是多 venue,而是“raw alpha + risk shell”一体化

README 给出的 Phase 2 逻辑非常清楚:

  1. Universe construction + cointegration testing
  2. Baseline z-score mean reversion strategy
  3. ML enhancement (Gradient Boosting + Random Forest)
  4. Walk-forward backtest + crisis analysis
  5. Report generation

这说明 repo 作者默认的策略顺序也是: 先有 baseline raw alpha,再加 ML enhancement。

这点很关键,因为对 short-cycle desk 来说,第一轮最该复现的,永远应当是:

6. 有哪些关键数字可以直接带走

6.1 repo 报出来的主结果

README 的 walk-forward out-of-sample 结果里,Phase 2 Altcoin Statistical Arbitrage 给了这些数字:

这些数字的正确读法不是“照抄预期收益”,而是:

6.2 成本和风控不是装饰,而是这条卡能不能活的关键

docs/methodology.md 里对 pairs 成本给得也很具体:

这套设计很适合 desk 的当前偏好: 不要把 alpha 写成“入场公式”,而要写成“能扣费、能限仓、能停做”的完整壳。

6.3 ML 在这里扮演的是 filter,不是 alpha 本体

repo 和 methodology 文档都把 ML 摆在 enhancement 位置,特征包括:

这意味着对当前 desk,最合理的拆法是:

这正符合本轮任务的分类要求,不会把 filter 伪装成 alpha 本体。

7. 对当前 desk,更该抄哪一层,不该抄哪一层

7.1 最该先抄的是 baseline,不是全仓库宇宙

如果 desk 要最小可复现,我会先抄这四个部件:

  1. liquid universe + pair selection
  2. cointegration + half-life filter
  3. z-score entry / mean exit / stop
  4. cost + cap + max-holding risk shell

先别抄:

因为第一轮要回答的是: 这条 pairs raw alpha 在我们自己的 5m / 15m 口径下,是否仍有 after-cost 边际。

7.2 ML 更像第二阶段增强层

当 baseline 已经能在 15m 活下来后,再考虑:

如果 baseline 都活不下来,ML 大概率只是在 更复杂地亏钱

8. 这条 alpha 与 1m / 3m / 5m / 15m 的关系

8.1 15m 是最优先主战场

这份 repo 原始口径是 1h + 1~7 天 half-life,所以 desk 化时最自然的下采样不是直接冲 1m,而是先落在 15m

8.2 5m 是第二站,不是第一站

5m 更适合做:

但如果一上来就把 pair MR 压到 1m/3m,很容易把 半衰期优势换成纯手续费机器

8.3 1m / 3m 更像 execution / veto 层

对这类 pairs raw alpha,1m/3m 的合理位置通常不是主信号,而是:

所以别把它硬伪装成 “1m 主 alpha”,这条线更诚实的结构是: 15m 做 alpha admission,5m 做 tactical execution,1m/3m 做 microstructure veto。

9. 最小可复现实验(直接服务当前 desk)

实验 A:最简 CEX pair baseline

实验 B:half-life / threshold 网格

实验 C:ML enhancement 诚实对照

在 baseline 能活后,再加一个很薄的 filter:

实验 D:risk shell ablation

比较这几组:

  1. 无 sector cap
  2. 40% sector cap
  3. 40% sector cap + 0.7 correlation cap
  4. 再加 max holding bars

这一步回答: pairs alpha 的净值稳定性,有多少来自信号,有多少来自风险外壳。

10. 这条线最容易犯的错

11. 为什么它值得进研究池

这张卡值得进池,不是因为它又是一个“很大的 repo”,而是因为它非常适合做 pairs / stat-arb 策略母板

它对当前 desk 最直接的价值,不是提供一个“新奇 headline alpha”,而是补上一块 能反复复用的 raw alpha 组件化模板

12. 下一步怎么测

  1. 先做 BTC/ETH, ETH/BNB, BTC/SOL 三组 15m baseline,只保留 cointegration + z-score + stop/exit。
  2. 立刻跑成本梯度:round-trip 4 / 8 / 12 / 16 bps,先看生存区,不先追最高 Sharpe。
  3. 再测 half-life gate:短 half-life 是否明显优于长 half-life,确认它是否适合 short-cycle 化。
  4. 若 baseline after-cost 仍为正,再加最薄 ML filter,看它到底提升 hit-rate 还是只是减换手。
  5. 最后才扩展多 pair book,加入 sector/correlation cap,验证它能否作为组合中的低 beta 市场中性腿。

13. 一句话结论

如果只带走一句话,我会带走这句:

别把这份 2026 多 venue 新 repo 只当“大而全 crypto 研究框架”;对 short-cycle desk,更该先抄的是「cointegration spread raw alpha × ML entry filter × venue-tier risk stack」这条可独立复现、可直接落地的 pairs 全策略骨架。