← 返回 Quant Digests · 站点首页

别把这份 2026 stat-arb repo 只读成“图聚类作业”:对 short-cycle desk,更该先保留的是「去市场模态后的同簇偏离 → 向 cluster composite 回归」这条 raw alpha

更新时间:2026-04-17 14:24 UTC 研究时间:2026-04-17 14:38 UTC 类型:2026 GitHub repo source audit(`README.md` + `stat_arb/reporting/FINAL_REPORT.md` + `stat_arb/pca/market_mode.py` + `stat_arb/graphs/knn_graph.py` + `stat_arb/clustering/sponge.py` + `stat_arb/signals/cluster_deviation.py` + `stat_arb/backtest/walk_forward.py`)+ Binance USDⓈ-M `15m` portability probe(9 majors,20 folds) 主题标签:raw-alpha / stat-arb / relative-value / cluster-deviation / pca / market-mode-removal / signed-graph / sponge / mean-reversion / cross-sectional / binance-perpetual / 15m / 5m / repo / public-data / cost / risk 证据类型:GitHub repo 实现 + repo 自带 walk-forward 报告 + 本地 public-data portability probe

源文件:research/quant_digests/2026-04-17_1438_clusterdeviation-pca-sponge-statarb-alpha.md

1. 这次看了什么

主材料是一个今年的新仓:

先把一句话讲清楚:

> 这份仓最值钱的地方,不是“用了 SPONGE / signed graph 很花哨”,而是它把一条相当清楚的 raw alpha 写成了完整壳:去市场模态后的 cluster-relative 偏离,随后更容易向 cluster composite 回归。

也就是说,这轮该 intake 的不是“聚类技术”本身,而是:

2. 核心结论

2.1 一句话结论

> 这是一条可以独立成型的 stat-arb raw alpha:market-mode removal + cluster admission + deviation fade。repo 的图聚类、beta neutral、turnover cap,本质上都是在帮这条 alpha 从“想法”变成“可回测策略”。

2.2 一句话它是怎么证明的

> repo 自带的 daily low-cap walk-forward OOS(2024-05 ~ 2025-05)里,最佳配置 Cluster Deviation + SPONGE k=3 gross Sharpe 到 3.27、break-even cost 到 54.2 bps;我又把核心逻辑迁移到 Binance USDⓈ-M 15m 9 个 liquid majors 上做 20 个 rolling folds,结果显示 raw signal 还活着,但 taker 成本几乎把它全吃光。

2.3 为什么值得进素材池

3. repo 里最值钱的 3 层结构

3.1 第一层:先去掉 market mode,只留下“相对跑偏”

stat_arb/pca/market_mode.py 里先对 cross-section returns 做 PCA,只拿第一主成分当“市场模态”,再把它从每个币的收益里减掉。

翻成人话:

> 如果今天全市场一起涨,那不是你要的 alpha;真正要的是“在大家一起涨这件事之外,哪个币相对同簇多涨了/少涨了”。

这一步很关键,因为不去 market mode,后面的“均值回复”很容易只是把市场 beta 当成 alpha。

3.2 第二层:signed k-NN graph + SPONGE,不是噱头,而是 pair admission 的升级版

repo 没抱死固定 pairs,而是:

我的读法:

> 这比“先手搓 1 对 BTC/ETH 再看 spread”更像 cluster-first admission。它在做的是:先找一小群行为相近的币,再在群内做 relative value。

所以它不是 pair trade 的换皮,而是 pair admission 的更泛化版本

3.3 第三层:Cluster Deviation 才是最该保留的主信号

最值得抄的不是简单 z-score pair,而是 ClusterDeviationStrategy

这条信号对 short-cycle desk 的翻译很直白:

> 不是问“这币自己该涨还是该跌”,而是问“这币相对它该一起行动的那一簇,是不是跑偏了”。

4. repo 自带证据,我最关心哪几个数

stat_arb/reporting/FINAL_REPORT.md 里最值得记住的是:

这说明作者不是只给“alpha intuition”,而是已经把:

5. 我补的 Binance 15m portability probe

5.1 数据源、公开性、实验口径

5.2 关键数字

先说 raw signal:

但短周期 desk 真正该盯的是成本后:

我的结论很明确:

> 在 Binance majors 的 15m taker 口径下,这条 alpha 不是“没信号”,而是“signal gross 活着,但周转太快,费后几乎立刻死”。

6. 对我们 desk 的正确读法

6.1 为什么这轮仍归到 raw alpha

因为 base alpha 可以一句话说清:

> 同簇相对偏离会回归。

PCA、图聚类、neutralization、turnover cap 都是把 raw alpha 包装成更可交易的策略层,而不是 alpha 本体。

6.2 和当前 1m / 3m / 5m / 15m 的关系

6.3 它服务于哪些 raw alpha 家族

这条思路最直接服务于:

  1. stat-arb / relative value:cluster deviation fade 本身就是 alpha;
  2. pairs 的 admission 升级版:先从 pair 扩成 cluster,再做相对偏离;
  3. cross-sectional mean reversion:不是简单 loser-winner,而是先做结构化分组再反打。

7. 策略拆解(必填)

8. 下一步怎么测

这轮已经给出 first verdict,下一步别再测“同一版参数细抠”,而该做 3 个更决定性的实验:

  1. 降周转版本
  1. 执行层改写版本
  1. cluster stability gate

最该先看两个指标:

9. 风险与保留意见

10. 来源