← 返回 Quant Digests · 站点首页
别把这份 2026 多 venue 新 repo 只读成“大而全研究脚手架”:对 short-cycle desk,更该先抄的是「cointegration spread raw alpha × ML entry filter × venue-tier risk stack」这条完整策略壳
更新时间:2026-04-03 05:08 UTC
研究时间:2026-04-03 05:04 UTC
类型:2026 GitHub 新仓库 `README.md + config/config.yaml + docs/methodology.md` 审阅 + 经典 pairs 文献地基交叉
主题标签:raw-alpha/pairs/stat-arb/relative-value/mean-reversion/cointegration/ml-filter/venue-tier/risk-stack/multi-venue/5m/15m/1m/3m/repo/public-data/cost
证据类型:repo(完整策略壳)+ config/methodology(参数与成本)+ classic paper(方法地基)
源文件:research/quant_digests/2026-04-03_0504_multivenue-coint-ml-filter-pairs-alpha.md
- 主题类型:raw alpha
- 基础 alpha:协整价差偏离后回归均衡;翻成人话,就是“本来该一起走的两条币腿短时走散了,做多被低估腿、做空被高估腿,等关系回正”
- 是否可独立复现:是
- 是否可直接落地完整策略(entry/exit/sizing/risk/cost):是
- 时间:2026-04-03 05:04 UTC
- 类型:2026 GitHub 新仓库
README.md + config/config.yaml + docs/methodology.md 审阅 + 经典 pairs 文献地基交叉
- 主题标签:raw-alpha/pairs/stat-arb/relative-value/mean-reversion/cointegration/ml-filter/venue-tier/risk-stack/multi-venue/5m/15m/1m/3m/repo/public-data/cost
- 证据类型:repo(完整策略壳)+ config/methodology(参数与成本)+ classic paper(方法地基)
1. 这次看了什么
这轮更值得 intake 的,不是再抄一个“复杂模型选币器”,而是这份 2026 新 repo 其实已经把一条 pairs / stat-arb raw alpha 的完整策略壳 摆得很齐:
- 先在多 venue universe 里筛流动性足够、协整显著的候选 pair;
- 用 spread z-score 做 均值回复入场;
- 用 ML 只做 entry/exit timing enhancement,不篡位成 alpha 本体;
- 用 half-life、venue tier、sector/correlation cap、Kelly fraction、cost model 把它包成可交易组合;
- 明确写了训练/测试、交易成本、无杠杆和 walk-forward 壳。
所以这轮最该带走的一句话是:
> base alpha 不是“GBM / RF 能预测收益”,而是 cointegrated spread mean reversion;ML 只是确认层,venue-tier risk stack 才是让它能活着上线的交易壳。
这和最近几轮学习进展是互补的:最近 raw alpha 池里,directional、carry、microstructure、cross-sectional 已经堆得不少;但 能把 entry / exit / sizing / risk / cost 一次讲全的 market-neutral pairs 母板 仍然值得继续补。
2. 先回答一句:这篇东西的 base alpha 是什么?
base alpha 很清楚:协整价差均值回复。
不是:
- “Random Forest 预测比较强,所以它是 alpha”;
- 也不是“多 venue 数据很多,所以 alpha 自然更稳”;
- 更不是“风控做得细,所以风控本身等于信号”。
真正的 alpha 是:
- 先找到长期一起走、短期会偶尔错开的币对;
- 当 spread 偏离历史常态过远时,做相对价值回归;
- 当 spread 回到均衡附近时退出。
翻成人话: 赚的钱来自“走散之后会回去”,不是来自模型名字更花。
3. 为什么这轮值得写,而不是继续补一张 generic directional 卡
如果拿当前 desk 的优先级看,这个主题仍然值得进池,原因有四个:
- 它是 raw alpha,不是 filter。
- z-score 偏离本身就是入场触发,不是旁路确认。
- 它直接给了完整策略壳。
- entry、exit、stop、position sizing、concentration cap、cost 都明确。
- 它把 ML 放在正确位置。
- ML 只是 timing/过滤增强,这比“把 ML 包装成 alpha 本体”更适合快速复现。
- 它补的是 market-neutral 素材池。
- 对 desk 来说,这比再多加一张单腿顺势卡更平衡,也更利于组合层分散。
如果要问:它为什么比继续补 raw directional alpha 更值得? 答案是: 因为它补上的不是一个点子,而是一整套 pairs 生产线母板。 这套母板以后可以接 cointegration、Kalman、copula、graph matching、funding gate、execution veto 等很多旁支。
3.5 策略拆解(必填)
- 方向属性:pairs / stat-arb / relative-value / market-neutral
- 基础 alpha:cointegrated spread mean reversion
- regime:只在协整关系稳定、半衰期不过长、流动性过关时启用
- filter / veto:ML timing filter、协整失稳、相关性过高、sector 过度集中、成本过高时 veto
- risk / sizing / execution overlay:Kelly fraction、venue tier 限额、单 pair notional cap、cost/slippage 假设、max holding、no leverage
4. 这次看的主来源
4.1 alpha / 工程主来源(repo)
- Tamer Atesyakar (2026)
Title: *Crypto Statistical Arbitrage* Venue: GitHub repository DOI: N/A Readable URL / Repo URL: https://github.com/abailey81/Crypto-Statistical-Arbitrage 作者/仓库页署名: Tamer Atesyakar 创建时间: 2026-03-13T16:54:17Z 实际看的文件: README.md, config/config.yaml, docs/methodology.md
4.2 方法地基(classic foundation)
- Engle, R. F.; Granger, C. W. J. (1987)
Title: *Co-Integration and Error Correction: Representation, Estimation, and Testing* Venue: *Econometrica* DOI: 10.2307/1913236 Readable URL: https://www.jstor.org/stable/1913236 Repo URL: N/A
- Gatev, E.; Goetzmann, W. N.; Rouwenhorst, K. G. (2006)
Title: *Pairs Trading: Performance of a Relative-Value Arbitrage Rule* Venue: *Review of Financial Studies* DOI: 10.1093/rfs/hhj020 Readable URL: https://academic.oup.com/rfs/article/19/3/797/1646694 Repo URL: N/A
5. 这条 alpha 到底有哪些硬信息,不是空想
5.1 这份 repo 不是只给概念,它把参数壳写得很细
从 README.md 和 config/config.yaml,至少能确认这些关键参数:
- 数据主频:OHLCV 1h;funding 统一到 8h;options snapshot 1h;
- walk-forward:train = 2022-01-01 ~ 2023-06-30,test = 2023-07-01 ~ 2024-12-31;
- pairs lookback:90 天;
- cointegration 显著性:5%;
- 可接受 half-life:1~7 天优先;
- CEX 入场阈值:|z| > 2.0;出场:z 回到 0;止损:|z| > 3.0;
- DEX 入场阈值:|z| > 2.5;出场:|z| < 1.0;止损:|z| > 3.0~3.5;
- 最大持有期:30 天;
- sizing:
volatility_weighted / Kelly fraction / tiered cap;
- no leverage:README 明写 1.0x only。
这已经不是“有个想法”,而是 直接能翻译成 backtest config 的策略骨架。
5.2 这份材料真正值钱的,不是多 venue,而是“raw alpha + risk shell”一体化
README 给出的 Phase 2 逻辑非常清楚:
Universe construction + cointegration testing
Baseline z-score mean reversion strategy
ML enhancement (Gradient Boosting + Random Forest)
Walk-forward backtest + crisis analysis
Report generation
这说明 repo 作者默认的策略顺序也是: 先有 baseline raw alpha,再加 ML enhancement。
这点很关键,因为对 short-cycle desk 来说,第一轮最该复现的,永远应当是:
- 协整筛 pair 是否稳定;
- z-score 反转是否 after-cost 仍活着;
- half-life 和 cost 是否允许短周期化;
- 风控层是否让它从“纸上 alpha”变成“可交易 alpha”。
6. 有哪些关键数字可以直接带走
6.1 repo 报出来的主结果
README 的 walk-forward out-of-sample 结果里,Phase 2 Altcoin Statistical Arbitrage 给了这些数字:
- Sharpe Ratio = 1.61
- Total Return = 6.84%
- Max Drawdown = 4.64%
- Win Rate = 51.18%
- Total Trades = 127
- BTC Correlation = -0.12
这些数字的正确读法不是“照抄预期收益”,而是:
- 这条 raw alpha 至少在作者口径下能 survive walk-forward;
- 它的收益并不依赖高 BTC beta;
- 它比较像 低相关 market-neutral 补充腿,而不是组合唯一主力。
6.2 成本和风控不是装饰,而是这条卡能不能活的关键
docs/methodology.md 里对 pairs 成本给得也很具体:
- CEX pair trade 总成本约 0.20%;
- DEX pair trade 总成本约 1.00%;
- CEX 单边 slippage 假设 0.05%,DEX 0.30%;
- DEX 还显式加了 MEV / gas 项;
- sector exposure cap = 40%;
- max cross-pair correlation = 0.70;
- Tier 1 / 2 / 3 最大持仓分别大致 $100k / $50k / $10k。
这套设计很适合 desk 的当前偏好: 不要把 alpha 写成“入场公式”,而要写成“能扣费、能限仓、能停做”的完整壳。
6.3 ML 在这里扮演的是 filter,不是 alpha 本体
repo 和 methodology 文档都把 ML 摆在 enhancement 位置,特征包括:
- lagged z-scores(1 / 2 / 4 / 8 / 24 bars)
- spread momentum / acceleration
- volume ratio
- BTC returns & volatility
- sector index returns
- correlation stability metrics
- volatility regime / HMM
这意味着对当前 desk,最合理的拆法是:
- raw alpha: spread z-score mean reversion;
- filter / confirmation: ML score、volatility regime、correlation stability;
- overlay: Kelly / sector cap / correlation cap / max holding / venue tier。
这正符合本轮任务的分类要求,不会把 filter 伪装成 alpha 本体。
7. 对当前 desk,更该抄哪一层,不该抄哪一层
7.1 最该先抄的是 baseline,不是全仓库宇宙
如果 desk 要最小可复现,我会先抄这四个部件:
- liquid universe + pair selection
- cointegration + half-life filter
- z-score entry / mean exit / stop
- cost + cap + max-holding risk shell
先别抄:
- 32 venue 全接入;
- DEX 复杂成本;
- 全量 ML ensemble;
- HRP/MVO/Black-Litterman 组合层。
因为第一轮要回答的是: 这条 pairs raw alpha 在我们自己的 5m / 15m 口径下,是否仍有 after-cost 边际。
7.2 ML 更像第二阶段增强层
当 baseline 已经能在 15m 活下来后,再考虑:
- 用 RF / GBM 给 spread 反转信号打分;
- 把低质量反转过滤掉;
- 把边际改善归因到 hit-rate 提升还是 turnover 降低。
如果 baseline 都活不下来,ML 大概率只是在 更复杂地亏钱。
8. 这条 alpha 与 1m / 3m / 5m / 15m 的关系
8.1 15m 是最优先主战场
这份 repo 原始口径是 1h + 1~7 天 half-life,所以 desk 化时最自然的下采样不是直接冲 1m,而是先落在 15m:
- 比 1h 更快,适合短周期 desk;
- 但比 1m/3m 更不容易被噪声和 fee 杀死;
- 更适合保留协整关系的稳定性。
8.2 5m 是第二站,不是第一站
5m 更适合做:
- 更密的 spread 更新;
- 更细的 execution slicing;
- 对
15m parent signal 的 child execution。
但如果一上来就把 pair MR 压到 1m/3m,很容易把 半衰期优势换成纯手续费机器。
8.3 1m / 3m 更像 execution / veto 层
对这类 pairs raw alpha,1m/3m 的合理位置通常不是主信号,而是:
- 做挂单择时;
- 做盘口/冲击 veto;
- 做 child order 切片;
- 做 spread 异常扩宽下的暂缓执行。
所以别把它硬伪装成 “1m 主 alpha”,这条线更诚实的结构是: 15m 做 alpha admission,5m 做 tactical execution,1m/3m 做 microstructure veto。
9. 最小可复现实验(直接服务当前 desk)
实验 A:最简 CEX pair baseline
- Universe:
BTC, ETH, BNB, SOL, XRP, DOGE 或 top-10 高流动 perp
- 数据源: Binance / Bybit / OKX 公共 perpetual klines
- 公开性: 公开可得
- 更新频率: 拉
1m 原始,聚合成 15m
- pair selection: rolling Engle-Granger + half-life filter
- entry:
|z| > 2.0
- exit:
z 回到 0
- stop:
|z| > 3.0
- 要回答的问题: 不加 ML,after-cost 的 pair MR 是否成立?
实验 B:half-life / threshold 网格
- half-life gate:
4~24 bars / 1~3 days / 3~7 days
- entry gate:
1.5 / 2.0 / 2.5
- exit gate:
0 / 0.5 / sign-flip
- 目标: 找到对
15m 来说最像“能活着交易”的参数区,而不是只找最高 Sharpe。
实验 C:ML enhancement 诚实对照
在 baseline 能活后,再加一个很薄的 filter:
- 特征:lagged z-score、spread momentum、BTC realized vol、volume ratio;
- 模型:先
logit / ridge / random forest;
- 输出:只决定 trade / no-trade,不直接替代 alpha;
- 目标:回答 ML 是提升 hit-rate,还是只是减少差交易。
实验 D:risk shell ablation
比较这几组:
- 无 sector cap
40% sector cap
40% sector cap + 0.7 correlation cap
- 再加
max holding bars
这一步回答: pairs alpha 的净值稳定性,有多少来自信号,有多少来自风险外壳。
10. 这条线最容易犯的错
- 错法 1: 把 ML 当 alpha,本末倒置。
- 错法 2: 只看 pair entry,不看 cross-pair correlation,结果同一行业一起爆。
- 错法 3: 只在 paper space 看 spread,不扣真实腿成本和 funding 结算影响。
- 错法 4: 直接把 1h 参数搬到 1m,结果 half-life 还没形成,手续费先到。
- 错法 5: 把多 venue 广度误当稳健性,实际上只是把工程复杂度放大。
11. 为什么它值得进研究池
这张卡值得进池,不是因为它又是一个“很大的 repo”,而是因为它非常适合做 pairs / stat-arb 策略母板:
- base alpha 清楚:cointegrated spread mean reversion;
- 分类清楚:ML 是 filter,不是 alpha 本体;
- 交易壳完整:entry / exit / sizing / risk / cost 都有;
- desk 迁移路径清楚:
1h → 15m 比 1h → 1m 更诚实;
- 公开数据友好:Binance / Bybit / OKX / Hyperliquid 等公有接口就能做 MVP。
它对当前 desk 最直接的价值,不是提供一个“新奇 headline alpha”,而是补上一块 能反复复用的 raw alpha 组件化模板。
12. 下一步怎么测
- 先做
BTC/ETH, ETH/BNB, BTC/SOL 三组 15m baseline,只保留 cointegration + z-score + stop/exit。
- 立刻跑成本梯度:round-trip
4 / 8 / 12 / 16 bps,先看生存区,不先追最高 Sharpe。
- 再测 half-life gate:短 half-life 是否明显优于长 half-life,确认它是否适合 short-cycle 化。
- 若 baseline after-cost 仍为正,再加最薄 ML filter,看它到底提升 hit-rate 还是只是减换手。
- 最后才扩展多 pair book,加入 sector/correlation cap,验证它能否作为组合中的低 beta 市场中性腿。
13. 一句话结论
如果只带走一句话,我会带走这句:
别把这份 2026 多 venue 新 repo 只当“大而全 crypto 研究框架”;对 short-cycle desk,更该先抄的是「cointegration spread raw alpha × ML entry filter × venue-tier risk stack」这条可独立复现、可直接落地的 pairs 全策略骨架。