← 返回 Quant Digests · 站点首页
别把高频 pairs 的阈值继续写死成一个数:这篇 2025 *Computational Economics* 更该先测的是「RF 预测阈值桶 × HF pair threshold-rebalance」
更新时间:2026-04-06 07:57 UTC
研究时间:2026-04-06 07:54 UTC
类型:2025 *Computational Economics* 开放获取全文(Springer PDF)+ Crossref / OpenAlex 元数据
主题标签:raw-alpha/pairs/stat-arb/relative-value/mean-reversion/high-frequency/threshold-rebalance/optimal-threshold/random-forest/ml/binance/btc-quoted/1m/3m/5m/15m/paper/open-access/public-data/cost/risk
证据类型:开放获取论文全文 + 元数据
源文件:research/quant_digests/2026-04-06_0754_rf-threshold-bucket-hf-pairs-alpha.md
- 时间:2026-04-06 07:54 UTC
- 类型:2025 *Computational Economics* 开放获取全文(Springer PDF)+ Crossref / OpenAlex 元数据
- 主题类型:raw alpha
- 基础 alpha:高相关 crypto pair 的相对价格偏离会向均衡权重回归;alpha 本体是 thresholded relative-value mean reversion,只是 entry / rebalance 宽度不再写死,而是按 pair 的 moments + VaR + corr 映射到不同阈值桶
- 是否可独立复现:是
- 是否可直接落地完整策略(entry/exit/sizing/risk/cost):是
- 主题标签:raw-alpha/pairs/stat-arb/relative-value/mean-reversion/high-frequency/threshold-rebalance/optimal-threshold/random-forest/ml/binance/btc-quoted/1m/3m/5m/15m/paper/open-access/public-data/cost/risk
- 证据类型:开放获取论文全文 + 元数据
1. 这次看了什么
先回答 base alpha:这篇东西的 base alpha 很清楚,就是 high-frequency crypto pairs 的 relative-value mean reversion。
但这篇更值得 intake 的点,不是“pairs 也能赚钱”,而是:别再默认所有 pairs 都该共用一个固定 entry 阈值。 作者直接把“最佳阈值落在哪个区间”当成一个可学习对象,用 pair 自身的均值、方差、偏度、峰度、VaR、相关性去预测阈值桶,然后再把这个阈值桶喂给高频 pairs 策略。
这对当前 desk 有直接价值,因为我们最近已经补了不少 pair selection / spread construction / copula / Hurst / dynamic-coint,但“不同 pair 到底该配多宽的 trigger 才扛得住成本和噪音” 还没有单独冻结成一张策略骨架卡。这篇刚好补的是 raw alpha 的 entry 层,不是外围解释。
2. 论文里最该拿走的东西
2.1 论文做了什么
- 作者:Mahmut Bağcı, Pınar Kaya Soylu
- 年份:2025
- 标题:The Optimal Threshold Selection for High-Frequency Pairs Trading via Supervised Machine Learning Algorithms
- 期刊:Computational Economics
- 市场与样本:Binance 上 50 个 crypto 资产的 BTC 报价市场,使用 2022–2023 两年逐分钟价格;作者还用 2024 年 1–2 月 做 out-of-sample test。
- 策略内核:不是传统“先 z-score,后双边开平”的教科书写法,而是pair threshold rebalancing:
- 初始两腿等权;
- 当两腿总价值比超过
1 + T 时,卖出相对高估腿的一部分,同时买入相对低估腿,把组合重新拉回等权;
T 就是策略最关键的 entry / rebalance 阈值。
翻成人话:这不是又一个 pair-selection 论文,而是在问“pair 选完以后,trigger 宽度该怎么配”。
2.2 论文里最硬的 6 个数据点
- 阈值扫描范围:1% 到 30%,步长 1%。 不是拍脑袋用
2σ,而是把每个 pair 在每个月的“最佳阈值”先穷举出来。
- 显式计入 0.1% 交易费。 这点很关键,因为高频 pairs 最大的问题本来就不是 paper alpha,而是门槛太窄后会被手续费磨死。
- 输入特征非常克制: 只用 pair 的 mean / variance / skewness / kurtosis / VaR / correlation coefficient,没有上来就黑盒深度学习。
- Random Forest 是全场最稳的分类器。 在训练/验证里,正相关 pair 的二分类平均准确率 87.51%,弱相关 83.99%,负相关 84.68%;三分类、四分类也都是 RF 最优。
- Out-of-sample(2024-01/02)也没塌。 测试集里,RF 对正相关 pair 的二分类平均准确率 92.17%(best 93.94%);弱相关 77.15%;负相关 81.68%。
- 作者给了实盘感很强的 pair 例子。 例如 2024 年 2 月,STX–THETA 在实际最优阈值 24% 时,作者记录到 41.2% 的最高收益案例;另外像 MANA–THETA(30% 阈值)对应 25.9%,DOGE–STX(29% 阈值)对应 25.1%。
2.3 真正改变我们实验设计的结论
论文里最有用的不是“RF 准确率不错”这句废话,而是下面这三个结构性判断:
- 阈值分布明显随相关性分层。
- 正相关 pair 的最佳阈值大量落在 0–15%;
- 弱相关更常落在 10–20%;
- 负相关则更常落在 22.5–30%。
- 说明 pair trigger 不是 universal constant。
相关性越弱、关系越松,想吃到有意义的回归,就越需要更宽的偏离才值得出手。
- 高频 pairs 的“参数选择”本身就是 alpha 工程的一部分。
不是先有 alpha、再随便套一个 2σ;很多时候 threshold 选错,alpha 直接从正变负。
3. 为什么这轮值得排在前面
这篇虽然还是 pairs,但它和我们最近那些 “再找一个新 spread / 新 pair selector” 的材料不一样:
- 它服务的是 raw alpha 本体,不是外围 filter;
- 它碰的是 entry / execution 骨架,不是又加一个解释变量;
- 它天然适合 desk 当前最关心的
1m / 3m / 5m / 15m,因为作者底层就是 minute 级数据;
- 它可以直接拆成完整策略:
- 什么 pair 能进池?
- 用多宽阈值触发?
- 什么时候 rebalance / 平仓?
- 成本上限多高还能活?
如果问“为什么这篇比继续补一个新 filter 更值得”,答案很直接:因为它还在 raw alpha 的主轴上,而且碰的是决定会不会交易的那一刀。
4. 策略拆解(按 desk 可落地口径)
4.1 论文原版 alpha
- 主题类型:raw alpha
- 基础 alpha: pair 两腿的相对偏离会回归均衡权重
- 执行形式: threshold rebalancing
- 方向属性: relative-value / mean reversion
- 原论文更接近: 两腿都持有、偏离后卖强买弱、把组合拉回等权
这点要说清:论文原版不是最经典的 market-neutral long-short spread shell,而是“等权 pair 被价格拉歪以后做阈值再平衡”。
4.2 desk 版的两个可落地方向
#### A. 论文 faithful 版(先复原作者)
- 标的:先从高流动性的
alt/BTC 或可合成 alt/BTC 的现货序列开始
- 初始:pair 内两腿等 BTC notional
- 信号:
- 计算组合权重差或两腿总价值比;
- 用 rolling 特征喂给 RF,得到阈值桶
T_bucket;
- 当价值比超过
1 + T_bucket,触发 rebalance
- 退出:回到等权后视为一次回归完成;或按固定检查点统计累计利润
- sizing:pair 内等权,组合层限制同时激活 pair 数
- risk:pair 断相关、波动跳升、成交深度不足时停用
#### B. perp-neutralized 版(更适合我们 desk)
- 标的:Binance / Hyperliquid / Bybit 的高流动 perp pair
- 信号:把论文的“价值比偏离”翻译成 residual / ratio gap 超阈值
- 交易:
- winner leg 做空,loser leg 做多;
- 名义金额按 beta-neutral 或 volatility-neutral 对冲
- 退出:
- gap 回到中性区;
- timeout;
- 相关性断裂 / 残差继续扩张到 hard stop
- 成本:手续费 + 滑点 + funding 全都记进去
翻成人话:论文给的是“阈值怎么选”,不是强迫我们照抄现货-BTC rebalancing 壳。alpha 可以保留,外壳可以换成更适合 perp desk 的 long-short 版本。
5. 这篇对 1m / 3m / 5m / 15m 的具体启发
5.1 不要一上来共享一个固定 band
对 short-cycle desk,最直接的误区就是:
5m 用 1.5σ
15m 也用 1.5σ
- 所有 pair 也用
1.5σ
这篇几乎可以视作对此的直接反例:pair 的最优 trigger 宽度和其统计特征是绑定的,不该被压成一个公共常数。
5.2 可以先从“阈值桶”而不是“精确阈值”开始
这是很实用的工程化思想。论文没有强求精确预测 17% 还是 18%,而是先把阈值做成:
- 二分类:
(0,15%] / (15%,30%]
- 三分类:
(0,10%] / (10%,20%] / (20%,30%]
- 四分类:
(0,7.5%] / (7.5%,15%] / (15%,22.5%] / (22.5%,30%]
对我们也一样:先把 trigger 学成 bucket,往往比直接回归一个连续值更稳。
5.3 它也能服务更常规的 z-score pairs
即便 desk 最后不用论文这种“价值比阈值再平衡”写法,这篇也仍然有用:
- 你完全可以把 RF 预测出来的 bucket,映射成不同的
entry z、stop z、max hold;
- 本质不变:pair-state → threshold regime。
6. 最小可复现实验(建议口径)
实验 1:先做论文 faithful 复现
- 数据:Binance 现货逐分钟
ALT/BTC 或由 ALT/USDT、BTC/USDT 合成 ALT/BTC
- 宇宙:先从
20~30 个流动性最高的币开始,不必一上来 50 个全上
- formation:按月滚动计算
- mean / variance / skewness / kurtosis / VaR / corr
- 标签:在 formation 月内穷举
T = 1%...30%
- 策略:下一月按 RF 预测阈值桶做 threshold rebalance
- 频率:
- 先跑
15m decision clock
- 再看
5m
- 有活口再下沉
3m / 1m
实验 2:再做 perp-neutralized 便携版
- 数据:Binance / Hyperliquid perp
1m mid 或 mark
- spread:ratio gap / hedge residual / beta-adjusted residual 三选一
- threshold:
- baseline A:固定
entry z
- baseline B:按 corr 桶手工分层
- candidate:RF 预测 threshold bucket
- 目标:比较 固定阈值 vs corr 分层阈值 vs RF 阈值桶 三者 post-cost 表现
7. 下一步怎么测(必须)
- 先做 paper-faithful 版,不要直接魔改。 先确认“阈值桶预测”本身有没有增益,再谈 perp-neutral 化。
- 先做 bucket,不要先做 continuous regression。 这篇已经说明分类比精确点预测更稳。
- 至少要有三组对照:
- 单一固定阈值;
- 只按 corr 桶分层的手工阈值;
- RF 预测阈值桶。
- 把
15m 和 5m 分开训练/验证。 不要偷懒把一个模型横跨所有频率。
- 必须显式记成本。 论文用的是
0.1% fee;我们实盘最少也要扫 8 / 12 / 16 / 20 bps pair round-trip,再加 funding。
- 组合层必须管 overlap。 很多 pair 会共用同一条腿,否者看起来是多 pair,实际是一把币暴露。
- 看这几个核心指标: post-cost expectancy、turnover、median hold、timeout 占比、pair overlap、相关性失效后的 drawdown。
8. 我现在的判断
这篇最值得我们拿去测的,不是“ML 很强”,而是:
> 高频 pairs 里,threshold selection 不是附属超参,而是 alpha 本体的一部分。
如果后续复现成立,它对 desk 的实际意义会很直接:
- 不再拿一个公共
entry z 硬套所有 pair;
- 先把 pair 分成几类,再给不同的 trigger 宽度;
- 把“什么时候该宽、什么时候该窄”这件事从拍脑袋,升级成一个可训练的 admission / execution layer。
9. 风险与保留意见
- 论文原壳更像 threshold rebalance,不是最标准的 market-neutral long-short,对我们 desk 需要做一层壳体翻译。
- 作者用的是 BTC 报价 pair;如果转到 USDT perp,协整结构、交易费、funding 都会变。
- RF 的优势目前来自这篇论文的样本设计;离样本后是否仍稳,要看我们自己的 2024–2026 OOS。
- 这篇解决的是 threshold selection,不是 pair selection 全部问题,不能替代 cointegration / Hurst / copula 等 admission 层。
10. 来源
- Bağcı, M., & Kaya Soylu, P. (2025). _The Optimal Threshold Selection for High-Frequency Pairs Trading via Supervised Machine Learning Algorithms_. Computational Economics.
- Crossref metadata
- OpenAlex metadata