源文件:research/quant_digests/2026-03-30_1858_percentile-entry-cointegration-pairs-alpha.md
主看这篇:
https://lutpub.lut.fi/handle/10024/168939https://lutpub.lut.fi/bitstream/handle/10024/168939/bachelorsthesis_Metsala_Micke.pdf?sequence=3先把 base alpha 说清楚:
> 这次主角不是 filter,不是 regime,也不是“pairs 研究综述”。真正的 raw alpha 是:筛出 cointegrated pair 后,spread 偏到尾部就做均值回归,而且 minute crypto spread 更适合用 percentile 触发,而不是照抄 ±2σ。
这轮我没有把 2026 的 *Pairs Trading in Crypto*(Stoikov et al.)当主 digest,不是因为主题不强,而是当前可稳定拿到的主要是 Crossref 摘要;反过来,这篇 2025 LUT thesis 虽然不是顶刊,但全文可读、样本口径完整、3m/5m/15m 直接贴 desk、entry/exit/sizing/cost 都写清楚,对本轮 intake 更有用。
一句话核心结论:
> 在 short-cycle crypto pairs 里,真正值得先复现的不是“distance vs cointegration”这个老问题本身,而是“cointegration + percentile-entry + mean-cross exit”这条完整策略骨架。
一句话它是怎么证明的:
> 作者用 Binance 378 个可做空 USDT 资产、71253 个 pair、200 天 formation + 200 天 trading、并把 10bps 交易成本直接扣进回测,逐个比较 3m/5m/15m 下的 distance 与 cointegration。
先给结论,不绕:
这篇东西最值钱的不是“pairs 在 crypto 里也能赚钱”这么泛,而是下面四点:
1000 单位资本0.1%论文明确解释:crypto pair spread 往往偏斜、重尾,直接拿标准差做阈值,可能会让某些 pair 几乎没机会,或把极端值当常态。作者改成:
全样本汇总:
论文里很多优胜 pair 带有明显 2024 小币风格(例如 REZ/OMNI/RVN/KMD/DYM 一类),这部分不能原样照抄进实盘;但它的策略骨架很适合拿来做 liquid-perp universe 的最小复现。
这轮选它,是因为它满足当前 bot7 的高优先级标准:
不是“pairs 可以当 filter”,而是spread 尾部回归本身就是可交易的 alpha。
现在素材池里有很多 pairs / relative-value 主题,但并不是每篇都把 entry / exit / sizing / cost 一起讲透。这个材料恰好给了完整 skeleton。
它直接跑的是 3m / 5m / 15m,不是日频论文硬迁移。
我们最近 intake 了不少 pairs / same-underlier / basket stat-arb,但“spread 用什么阈值触发更诚实”这个问题,还没有被单独钉牢。这里给了一个非常适合最小实验的答案: 固定 σ 阈值未必好,percentile 阈值更稳。
需要诚实补一句:
这并不削弱它的价值,反而告诉我们下一步该测什么: alpha 是否主要集中在入场后的前 1~3 天,能否把多天持有压缩成更 desk-friendly 的持仓上限。
cointegration + ADF;±2σ;1000 单位资本,按 hedge ratio 分配两腿仓位;10bps 交易成本;max-hold、MAE stop、liquidity stop、spread regime break。论文样本并不花哨,但非常适合复现:
3m: 2400015m: 14400015m: 48000对当前 desk 来说,这个口径最大的优点是: 不需要稀缺外部数据,直接用公开 K 线 + 可做空清单就能开第一轮。
作者不是随手挑几对币,而是:
翻成人话就是:
这也是为什么它更适合做 raw alpha 主体,而不只是辅助过滤层。
论文第 3.7 节其实比 headline 更值钱。
作者明确反对机械照搬 ±2σ entry + 0-cross exit,理由很简单:
对 desk 而言,这个分支想法的价值甚至高于“cointegration 比 distance 强”这个 headline:
> 因为 distance/cointegration 只是 pair selection,percentile-entry 才直接决定信号触发密度、胜率结构和成本后存活率。
论文 Table 9 / Table 10 最值得先记住的是这几组数字:
#### Cointegration
3m:平均净利润 9.94%,波动 1.98%,平均开仓时长约 12 天5m:平均净利润 13.19%,波动 2.58%,平均开仓时长约 15 天15m:平均净利润 14.38%,波动 2.97%,平均开仓时长约 17 天#### Distance
3m:平均净利润 10.60%5m:平均净利润 11.29%15m:平均净利润 10.99%3m 平均最大回撤最差,约 -2.7%这组结果翻成人话:
5m 和 15m 之间选:cointegration 侧:
3m:RVNUSDT-KMDUSDT 23.27%,CRVUSDT-STRKUSDT 20.84%5m:RVNUSDT-KMDUSDT 27.12%,RDNTUSDT-OMNIUSDT 21.09%,FUNUSDT-OMNIUSDT 18.42%15m:DYMUSDT-OMNIUSDT 26.53%,KMDUSDT-RVNUSDT 23.33%distance 侧也有不错个例,比如:
5m:REZUSDT-PHAUSDT 22.06%,REZUSDT-WRXUSDT 21.96%,DCRUSDT-OMNIUSDT 18.65%但这里最该学的不是“RVN/KMD 很神”或“REZ/PHA 很神”,而是两个提醒:
文中多次提到:
WBTCUSDT-BTCUSDTWBETHUSDT-ETHUSDT这类 pair 波动和回撤都很低,但收益也接近没有。
这对 desk 很关键: > 最稳的 pair 不一定最值钱;太“完美锚定”的 pair,往往只剩薄 spread,成本后没边。
这篇最适合直接变成一个 4 叉对照实验,而不是写完就放进 archive:
第一轮别上 378 个小币,先做:
对每个频率 3m / 5m / 15m,跑四个版本:
±2σ / 0-crosspercentile / mean-cross±2σ / 0-crosspercentile / mean-cross这样第一轮就能回答最关键的问题: 真正有用的是 cointegration,还是 percentile-entry,还是两者必须一起出现?
论文平均持有 12~17 天,和 desk 目标不完全一致。 所以必须额外加:
max_hold = 1d / 3d / 5d / 10dN 根 barMFE / MAE / time-to-mean如果利润大多在前 1~3 天已经实现,那它就 still 值得进 short-cycle 素材池; 如果必须长时间占资才有肉,那就降级成中短周期 stat-arb,而不是当前主线优先。
论文只扣了 10bps,但 desk 版至少还要补:
如果只留一句:
> 这篇材料最该进入素材池的,不是“crypto pairs 也能做”这种大结论,而是:在 3m/5m/15m 的 crypto pairs 里,先用 cointegration 选 pair,再用 percentile-entry / mean-cross 管 spread,比机械 ±2σ 更像当前 desk 应该优先复现的完整 raw alpha。
按优先级直接排:
5m 为主,15m 做稳健基线,3m 做高强度补充±2σ vs percentile1d / 3d / 5d / 10d2 / 4 / 6 / 10 bpshttps://lutpub.lut.fi/handle/10024/168939https://lutpub.lut.fi/bitstream/handle/10024/168939/bachelorsthesis_Metsala_Micke.pdf?sequence=310.2139/ssrn.6188418https://doi.org/10.2139/ssrn.6188418