← 返回 Quant Digests · 站点首页

别把高频 pairs 的阈值继续写死成一个数:这篇 2025 *Computational Economics* 更该先测的是「RF 预测阈值桶 × HF pair threshold-rebalance」

更新时间:2026-04-06 07:57 UTC 研究时间:2026-04-06 07:54 UTC 类型:2025 *Computational Economics* 开放获取全文(Springer PDF)+ Crossref / OpenAlex 元数据 主题标签:raw-alpha/pairs/stat-arb/relative-value/mean-reversion/high-frequency/threshold-rebalance/optimal-threshold/random-forest/ml/binance/btc-quoted/1m/3m/5m/15m/paper/open-access/public-data/cost/risk 证据类型:开放获取论文全文 + 元数据

源文件:research/quant_digests/2026-04-06_0754_rf-threshold-bucket-hf-pairs-alpha.md

1. 这次看了什么

先回答 base alpha:这篇东西的 base alpha 很清楚,就是 high-frequency crypto pairs 的 relative-value mean reversion。

但这篇更值得 intake 的点,不是“pairs 也能赚钱”,而是:别再默认所有 pairs 都该共用一个固定 entry 阈值。 作者直接把“最佳阈值落在哪个区间”当成一个可学习对象,用 pair 自身的均值、方差、偏度、峰度、VaR、相关性去预测阈值桶,然后再把这个阈值桶喂给高频 pairs 策略。

这对当前 desk 有直接价值,因为我们最近已经补了不少 pair selection / spread construction / copula / Hurst / dynamic-coint,但“不同 pair 到底该配多宽的 trigger 才扛得住成本和噪音” 还没有单独冻结成一张策略骨架卡。这篇刚好补的是 raw alpha 的 entry 层,不是外围解释。

2. 论文里最该拿走的东西

2.1 论文做了什么

翻成人话:这不是又一个 pair-selection 论文,而是在问“pair 选完以后,trigger 宽度该怎么配”

2.2 论文里最硬的 6 个数据点

  1. 阈值扫描范围:1% 到 30%,步长 1%。 不是拍脑袋用 ,而是把每个 pair 在每个月的“最佳阈值”先穷举出来。
  2. 显式计入 0.1% 交易费。 这点很关键,因为高频 pairs 最大的问题本来就不是 paper alpha,而是门槛太窄后会被手续费磨死。
  3. 输入特征非常克制: 只用 pair 的 mean / variance / skewness / kurtosis / VaR / correlation coefficient,没有上来就黑盒深度学习。
  4. Random Forest 是全场最稳的分类器。 在训练/验证里,正相关 pair 的二分类平均准确率 87.51%,弱相关 83.99%,负相关 84.68%;三分类、四分类也都是 RF 最优。
  5. Out-of-sample(2024-01/02)也没塌。 测试集里,RF 对正相关 pair 的二分类平均准确率 92.17%(best 93.94%);弱相关 77.15%;负相关 81.68%
  6. 作者给了实盘感很强的 pair 例子。 例如 2024 年 2 月,STX–THETA 在实际最优阈值 24% 时,作者记录到 41.2% 的最高收益案例;另外像 MANA–THETA(30% 阈值)对应 25.9%DOGE–STX(29% 阈值)对应 25.1%

2.3 真正改变我们实验设计的结论

论文里最有用的不是“RF 准确率不错”这句废话,而是下面这三个结构性判断:

  1. 阈值分布明显随相关性分层。
  1. 说明 pair trigger 不是 universal constant。
  2. 相关性越弱、关系越松,想吃到有意义的回归,就越需要更宽的偏离才值得出手。

  1. 高频 pairs 的“参数选择”本身就是 alpha 工程的一部分。
  2. 不是先有 alpha、再随便套一个 2σ;很多时候 threshold 选错,alpha 直接从正变负

3. 为什么这轮值得排在前面

这篇虽然还是 pairs,但它和我们最近那些 “再找一个新 spread / 新 pair selector” 的材料不一样:

如果问“为什么这篇比继续补一个新 filter 更值得”,答案很直接:因为它还在 raw alpha 的主轴上,而且碰的是决定会不会交易的那一刀。

4. 策略拆解(按 desk 可落地口径)

4.1 论文原版 alpha

这点要说清:论文原版不是最经典的 market-neutral long-short spread shell,而是“等权 pair 被价格拉歪以后做阈值再平衡”。

4.2 desk 版的两个可落地方向

#### A. 论文 faithful 版(先复原作者)

#### B. perp-neutralized 版(更适合我们 desk)

翻成人话:论文给的是“阈值怎么选”,不是强迫我们照抄现货-BTC rebalancing 壳。alpha 可以保留,外壳可以换成更适合 perp desk 的 long-short 版本。

5. 这篇对 1m / 3m / 5m / 15m 的具体启发

5.1 不要一上来共享一个固定 band

对 short-cycle desk,最直接的误区就是:

这篇几乎可以视作对此的直接反例:pair 的最优 trigger 宽度和其统计特征是绑定的,不该被压成一个公共常数。

5.2 可以先从“阈值桶”而不是“精确阈值”开始

这是很实用的工程化思想。论文没有强求精确预测 17% 还是 18%,而是先把阈值做成:

对我们也一样:先把 trigger 学成 bucket,往往比直接回归一个连续值更稳。

5.3 它也能服务更常规的 z-score pairs

即便 desk 最后不用论文这种“价值比阈值再平衡”写法,这篇也仍然有用:

6. 最小可复现实验(建议口径)

实验 1:先做论文 faithful 复现

实验 2:再做 perp-neutralized 便携版

7. 下一步怎么测(必须)

  1. 先做 paper-faithful 版,不要直接魔改。 先确认“阈值桶预测”本身有没有增益,再谈 perp-neutral 化。
  2. 先做 bucket,不要先做 continuous regression。 这篇已经说明分类比精确点预测更稳。
  3. 至少要有三组对照:
  1. 15m5m 分开训练/验证。 不要偷懒把一个模型横跨所有频率。
  2. 必须显式记成本。 论文用的是 0.1% fee;我们实盘最少也要扫 8 / 12 / 16 / 20 bps pair round-trip,再加 funding。
  3. 组合层必须管 overlap。 很多 pair 会共用同一条腿,否者看起来是多 pair,实际是一把币暴露。
  4. 看这几个核心指标: post-cost expectancy、turnover、median hold、timeout 占比、pair overlap、相关性失效后的 drawdown。

8. 我现在的判断

这篇最值得我们拿去测的,不是“ML 很强”,而是:

> 高频 pairs 里,threshold selection 不是附属超参,而是 alpha 本体的一部分。

如果后续复现成立,它对 desk 的实际意义会很直接:

9. 风险与保留意见

10. 来源

  1. Bağcı, M., & Kaya Soylu, P. (2025). _The Optimal Threshold Selection for High-Frequency Pairs Trading via Supervised Machine Learning Algorithms_. Computational Economics.
  1. Crossref metadata
  1. OpenAlex metadata