← 返回 Quant Digests · 站点首页

别把 basket stat-arb 只当 pairs 扩容:这份 2026 新 repo 更该先测的是「3-leg cointegrated basket + OU alpha + hysteresis bucket」完整 raw alpha

更新时间:2026-03-26 03:44 UTC 研究时间:2026-03-26 03:42 UTC 类型:2026 GitHub 新仓库 + notebook 输出审计 + Binance Futures 公共 `15m/1h/4h` 最小快检 主题标签:raw-alpha/stat-arb/relative-value/cointegrated-basket/ou-alpha/hysteresis/bucketed-sizing/risk-parity/crypto/binance/perpetual/15m/1h/4h/repo 证据类型:GitHub notebook 输出审计 + 代码规则拆解 + 本地公共数据快检

源文件:research/quant_digests/2026-03-26_0342_cointegrated-basket-ou-hysteresis.md

> 先回答 base alpha:这篇东西的 base alpha 不是 filter,不是 throttle,也不是 bucket sizing。base alpha 就是“多腿 cointegrated spread 偏离均衡后回归”这条 relative-value / stat-arb raw alpha。 值得写它,是因为最近 digest 虽然已经补了不少 pairs / spread,但还缺一张更接近 desk 真实部署形态的卡:不是只做 2-leg pair,而是直接把 3-leg basket、入场滞后、仓位 bucket、组合配重一起拆给你。

1. 这次看了什么

这次主看一份非常新的 GitHub repo:

  1. Sujith Kamme (2026). _Trading Cointegrated Crypto Baskets with Regime-Aware Statistical Arbitrage_. GitHub repository / Jupyter notebook.
  1. notebook 的主线不是“单对 pair 回归”,而是:

翻成人话:

  1. 如果不是两条线,而是 3 条腿呢?
  2. 如果 spread 的回归强度有高低档,仓位要不要跳档?
  3. 如果 basket 本身是 market-neutral 候选,最后多个 basket 之间怎么配?

这比“又一个 z-score pairs demo”更接近我们当前 desk 的素材池需求:它给的是完整 raw alpha 骨架,而不是只给一个 entry 信号。

2. 核心结论

我的 desk 化判断很明确:

3. 3 个最关键的数据点

  1. repo 自带的 walk-forward 结果,不只是“看起来有道理”,而是已经到完整组合层。 notebook 输出显示:
  1. 把同一批 baskets desk-transfer 到 Binance perp 后,1h 还能活,15m 基本就塌。 我用 repo 最终留下的 4 个三腿 baskets,在 Binance USDⓈ-M 上做固定 train-weight proxy(Johansen 取权重,spread z-score 入场,含 6 bps taker-ish 成本)得到:
  1. 最好的 basket 在慢时钟上很强,但压快后会反过来伤人。 repo 里最强的一组之一 OPUSDT / FILUSDT / APTUSDT,我这边 proxy 的结果是:

4. 为什么它和当前 desk 直接相关

4.1 它服务的是哪类 raw alpha

4.2 它补的是哪块空白

最近 digest 已经有:

但还比较缺一张更接近 desk 真实落地的 basket 卡

所以这篇的价值不在“又证明一次 mean reversion”,而在于它把 basket discovery → alpha extraction → sizing governance → portfolio layer 连成了一条完整链。

5. 策略拆解(按完整策略卡写)

5.1 方向属性

5.2 基础 alpha

  1. 先找一组 2~4 个币,使其 log-price 之间存在可交易的 cointegrated 关系;
  2. 由 Johansen / rolling weights 构造 spread:
  1. 当 spread 偏离其 rolling equilibrium,赌其向中枢回归;
  2. 这就是 alpha body。

5.3 entry

repo 不是直接写死“z > 2 就开”,而是先构造:

对 desk 的最小版可先写成:

5.4 exit

repo 输出给了两个很重要的 exit 观念:

  1. hysteresis:不要刚穿阈值就来回翻;
  2. bucketed sizing:回归强度分层,而不是 all-in / all-out。

desk 最小版可先用:

5.5 sizing

这里是这份 repo 比普通 pairs notebook 更值钱的地方:

换成人话:

5.6 risk / cost

也就是说,这篇不是只给“alpha 会不会回归”;它直接把 entry / exit / sizing / risk / cost 五件套摆齐了。

6. 本地最小快检:把 repo 的 baskets 拿到 Binance perp,上快慢时钟看 transfer 边界

6.1 数据与口径

6.2 结果怎么读

#### 先看 aggregate

这组结果最有价值的,不是“1h 比 4h 还高”这件事本身,而是它把边界说清了:

#### 再看单 basket

  1. OP/FIL/APT
  1. ADA/ATOM/CRV

这说明两个问题:

6.3 desk 读法

对当前 short-cycle desk,我更愿意把它定义成:

而不是:

7. 这条线现在该怎么放进研究池

我的判断:值得进研究池,而且是 raw alpha 前排,但别误标。

更诚实的标签应是:

而不是:

也就是说,值得保留的不是“15m 压快后还能赚”;而是:

  1. 3-leg basket 比 2-leg pairs 更像可扩展的 relative-value 家族;
  2. OU alpha + hysteresis + bucket sizing 给了很完整的部署骨架;
  3. 短周期该服务 execution,不该强行接管 discovery。

8. 下一步怎么测(必须)

  1. 把固定 train-weight 改成真正的 rolling walk-forward。 当前 proxy 还是 train-once/test-once;下一轮必须做 1h 的 rolling re-estimation,确认不是一次性样本幸运。
  2. 1h discovery → 15m execution 真正拆成两层。 不要再跑 15m 直接重估 basket;而是用 1h 出方向,用 15m 做挂单/切片/回归触发。
  3. 把 raw alpha、本地 hysteresis、risk parity 三层拆开 A/B。 先跑:
  1. 补资金费与腿流动性约束。 这类多腿 basket 在 perp 上很容易被 funding / 某一腿容量拖死;下一轮必须记录每条腿的 funding、quote volume、以及最脆弱腿的 participation。
  2. 和现有 2-leg pairs 做正交性检查。 如果 basket 只是在复制 pair spread 的 beta-neutral 版本,就没必要单独占预算;要验证它是否提供了新的 residual source。
  3. 把仓位 bucket 改成 cost-aware bucket。 repo 里 bucket 更像 alpha-strength bucket;desk 版下一轮应直接加 expected edge > fee budget 的 no-trade 条件。

9. 风险与保留意见

10. 来源

  1. Kamme, S. (2026). _Trading Cointegrated Crypto Baskets with Regime-Aware Statistical Arbitrage_. GitHub repository / notebook.
  1. Johansen, S. (1991). _Estimation and Hypothesis Testing of Cointegration Vectors in Gaussian Vector Autoregressive Models_. Econometrica, 59(6), 1551–1580.
  1. Avellaneda, M., & Lee, J.-H. (2010). _Statistical Arbitrage in the U.S. Equities Market_. Quantitative Finance, 10(7), 761–782.
  1. Binance Developers. _USDⓈ-M Futures API – Kline/Candlestick Data_.

11. 本地产物

12. 一句话 verdict

进研究池,而且按 raw alpha 前排保留;但更诚实的 desk 化方向是 1h/4h basket discovery + 15m execution,不是把 basket cointegration 直接压成 15m 主信号。