别把这篇 2024 crypto pairs 比较论文只读成“方法横评”：对 short-cycle desk，更该先保留的是「distance-first pair admission × spread fade baseline」这条 raw alpha

更新时间：2026-04-15 21:30 UTC 研究时间：2026-04-15 21:33 UTC 类型：2024 *Investment Analysts Journal* 论文摘要/元数据 audit（OpenAlex abstract + Crossref metadata）主题标签：raw-alpha/pairs/stat-arb/relative-value/mean-reversion/distance/correlation/cointegration/hurst/sdr/binance/intraday/1m/5m/60m/paper/abstract-metadata/public-data/cost/risk 证据类型：paper abstract + metadata audit

源文件：research/quant_digests/2026-04-15_2133_distancefirst-cryptopairs-baseline-alpha.md

时间：2026-04-15 21:33 UTC
类型：2024 *Investment Analysts Journal* 论文摘要/元数据 audit（OpenAlex abstract + Crossref metadata）
主题类型：raw alpha
基础 alpha：先在 Binance 1m/5m/60m 多币 universe 里，用 Distance / Cointegration / Hurst 等方法挑出最像的一组交易对；当 pair 的相对价格/标准化 spread 明显偏离历史均衡时，做多低估腿、做空高估腿，赌的是短周期 spread 回归，而不是单腿方向。
是否可独立复现：是
是否可直接落地完整策略（entry/exit/sizing/risk/cost）：否（当前公开可得材料以摘要/元数据为主，足够确认 base alpha + selector ranking，但 formation/trading cycle、阈值与 sizing 细节仍需用我们自己的 pairs baseline 壳补齐）
主题标签：raw-alpha/pairs/stat-arb/relative-value/mean-reversion/distance/correlation/cointegration/hurst/sdr/binance/intraday/1m/5m/60m/paper/abstract-metadata/public-data/cost/risk
证据类型：paper abstract + metadata audit

1. 这次看了什么

这轮主看的是：

Authors： Po-Chang Ko, Ping-Chen Lin, Hoang-Thu Do, Yuan-Heng Kuo, Linh My Mai, You-Fu Huang
Year： 2024（Crossref 期刊年份；OpenAlex 记录为 2023/2024 流转）
Title： *Pairs trading in cryptocurrency markets: A comparative study of statistical methods*
Venue： *Investment Analysts Journal*
DOI： 10.1080/10293523.2023.2268386
Readable URL： <https://doi.org/10.1080/10293523.2023.2268386>
Repo URL： N/A（未见作者公开代码仓）

我这次没有把它读成“又一篇 pairs 综述”，而是先问一句：

> 它的 base alpha 到底是什么？

答案其实很直白：

> crypto intraday pairs 的核心 alpha 仍然是 spread mean reversion；这篇论文真正有价值的地方，不是再发明一条新 spread，而是直接比较“哪种 pair selector 在 1m/5m/60m 上更稳、更值得先做 baseline”。

这正好对上我们最近几天的学习缺口：

我们已经连续吸收了不少更复杂的 pairs / basket / copula / dynamic-factor 材料；
但 desk 真正需要先回答的，不是“最花的模型是什么”，而是：
最简单的 pair admission baseline 是不是已经够强？
复杂方法带来的增益，是否真的值得它们的估计误差与过拟合成本？

这篇文章给出的结论很有用：

> 在 Binance 的 crypto intraday 数据里，简单的 Distance 选对法，不仅没有输给更复杂的 selector，反而在 1m/5m/60m 三个频率上都表现得非常强；而 Cointegration、Hurst 也只是在 1m/5m 勉强跟得上。

所以这不是 overlay，也不是 filter；它本体就是一条：

> pair-selection-aware spread-fade raw alpha。

2. base alpha 先说清楚

论文比较了 6 类 pair 选择方法：

Cointegration
Correlation
Distance
Fluctuation Behaviour
Hurst Exponent
Stochastic Differential Residual（SDR）

但别被“六种方法大比武”这个表象带偏。

真正的交易本体没有变：

先从多币 universe 里找出“行为最接近”的 pair；
再交易它们的 temporary mispricing / spread deviation；
也就是 classic long-short relative-value / mean-reversion 逻辑。

翻成人话：

不是赌 BTC、ETH 方向；
而是赌 两条腿之间短期偏得太远，之后会往中间收。

这就是非常标准、非常纯的：

pairs
stat-arb
relative value
mean reversion

3. 为什么这篇现在反而值得补

3.1 它补的是“先做什么 baseline”，不是再堆 fancy 方法

最近 intake 里已经有不少更复杂的 pairs 主题：

copula mispricing
dynamic factor basket
cluster-first / network-first pair admission
higher-moment / microprice 等变体

这些都值得留着。

但如果没有一个扎实的 baseline，后面所有 fancy 方法都容易变成：

> 看起来更高级，但不一定比最简单的 distance selector 更值。

这篇论文最值钱的地方，就在于它给了一个相对罕见、又非常 desk-friendly 的回答：

> 在 crypto intraday pairs 里，simple beats fancy 的情况并不少见。

3.2 它直接覆盖我们关心的频率

论文不是日频老故事，而是明确用了：

1m
5m
60m

对我们来说，这很关键。

因为这意味着它不是那种“逻辑很好，但得硬翻译到短周期”的材料；它本身就在 intraday 语境里比较方法。

3.3 它不是只服务于 pairs，本质上也服务于 pair admission 模块

即便最后我们不直接照论文做整套 pair trading，里面最有迁移价值的部件也很清楚：

selector ranking：先用 Distance 做 baseline pair admission
method ablation：再测试 Cointegration / Hurst / Copula / Dynamic Factor 是否真有增益
execution split：state layer 放 1h/5m，execution layer 放 5m/1m
veto stacking：再叠加 funding / OI / liquidity / spread-cost veto

也就是说，这篇东西不只是“又一条 pairs alpha”，还是：

> pairs 研究线的 baseline 校准器。

4. 论文里最值得记的硬信息

4.1 数据与样本

OpenAlex 摘要明确给出：

Exchange：Binance
资产数：30 cryptocurrencies
样本区间：2022-01-01 到 2022-03-31（3 个月）
频率：1m / 5m / 60m

这点已经足够让它进入我们的研究池，因为：

数据公开可得；
最小实验不依赖私有订单流；
直接可映射到我们熟悉的 1m/5m/15m 研发链路。

4.2 比较对象

论文不是只测一个方法，而是横向比较 6 类 selector。

这比“某个作者自己证明自己的方法有效”更有参考价值，因为它至少提供了：

同一 market
同一 sample
同一 intraday 频率集合
同一评价框架

4.3 结果里最有用的数字

摘要里最关键的结论是：

#### Distance 方法总收益

1m：208.12%
5m：236.31%
60m：210.36%

#### 额外结论

在 60m 下，Distance：
风险更低；
即便其他方法多数转负，它依然表现突出；
expired counts 最低；
success ratio 最高。
在 1m / 5m 下，Cointegration 与 Hurst Exponent 的结果 可与 Distance 相比，但摘要没有说它们系统性超过 Distance。
论文还做了 Student t-test，并称统计检验支持上述比较结论。

对 desk 最有价值的翻译是：

> 至少在这个样本里，pair admission 这一步先做简单 distance baseline，是有实证依据的；复杂 selector 不应默认先验占优。

5. 这篇对 desk 的真正启发，不是“做 pairs”，而是“先别跳过 baseline”

最近我们已经积累了不少更复杂的 pairs / basket ideas。

如果现在继续只追 fancy 方法，很容易忽略一个更现实的问题：

> short-cycle crypto 的边，本来就容易被 costs、regime drift、pair instability 打薄；那就更应该先确定最稳的 baseline，而不是一上来就上高参数自由度模型。

这篇论文提供的不是终极答案，而是一个很清楚的研究顺序：

Step 1：先跑最简单的 distance pair admission

先确认纯 price-based closeness 能不能筛出足够稳定的 spread
先拿一个 low-parameter baseline

Step 2：再让 cointegration / Hurst / copula 上场

它们不是 baseline
它们是 增量信息候选
只有当它们能稳定提升 net PnL / Sharpe / holding efficiency 时，才值得保留

Step 3：最后才叠执行层与 veto

spread-cost veto
funding conflict veto
liquidity veto
OI / event veto

这条顺序，比“再找一个更 fancy 的 pair model”更值钱。

6. 对 short-cycle desk 的正确落地方式

这里最重要的一点是：

> 不要把这篇文章误读成“只要做 distance pairs 就行”。

更准确的读法应该是：

> 在我们后续所有 pairs / stat-arb 研发里，Distance 应该先成为 pair admission baseline，对照所有更复杂方法。

6.1 raw alpha 本体

我们真正保留的 raw alpha 是：

distance-ranked pair admission × spread fade

也就是：

在可交易 universe 中，按 historical closeness / normalized distance 排 pair；
挑选 top candidates；
交易最偏离均值的 pair spread 回归。

6.2 `15m/5m/1m` 的迁移姿势

论文直接给了 1m / 5m / 60m，所以我们最自然的迁移方式是：

状态层：5m 或 15m
做 pair admission
做 rolling spread normalization
执行层：1m 或 3m
做更便宜的 entry timing
做双腿成交顺序优化
做 spread-cost veto

6.3 不要直接神化 cointegration

从最近 intake 看，我们很容易天然偏向：

cointegration
copula
dynamic factor
network structure

但这篇文章提醒我们：

> 在短周期 crypto 里，pair admission 不是越“经济学正确”越能赚钱；参数越多、估计越重的 selector，未必比简单 distance 更稳。

7. 最小可复现实验怎么做

因为当前能直接拿到的材料以摘要/元数据为主，还不足以 1:1 复刻论文所有实现细节，所以更合理的做法不是假装完全复刻，而是：

> 先做一个 desk 版最小 baseline replication。

7.1 数据口径

数据源： Binance public klines（Spot 或 USDⓈ-M，优先后者）
公开性： 公开可得
更新频率： 1m
最小实验频率： 5m 主状态，1m 执行；另做 15m 稳定性对照
Universe： 20~30 个 liquid majors / mid-liquids（去掉长期 illiquid 尾部币）

7.2 第一版流程

对每个候选 pair 计算 rolling normalized price distance；
每个 rebalance 时点选 top-N 最相似 pair；
对每个入选 pair 计算 spread z-score；
当 |z| 超过阈值时开仓：

z > entry：short rich leg / long cheap leg
z < -entry：long rich? 不对，应该 long cheap leg / short rich leg

当 |z| 回到 close band 时平仓；
加入 taker / maker 费、滑点、双腿 legging delay。

7.3 建议先扫的阈值

这组不是论文原值，而是 desk baseline 建议值：

entry z ∈ {1.5, 2.0, 2.5}
exit z ∈ {0.0, 0.5, 1.0}
max hold ∈ {12 bars, 24 bars, 48 bars}
reselect interval ∈ {1d, 3d, 7d}

7.4 必做对照组

至少做 4 组：

Distance selector + spread z-score fade
Cointegration selector + spread z-score fade
Hurst selector + spread z-score fade
Distance selector + funding / liquidity veto

真正想回答的问题不是“pairs 行不行”，而是：

> 在 crypto short-cycle 里，distance baseline 到底已经吃掉了多少 edge；复杂 selector 还能带来多少增量。

8. 我对这篇的当前判断

8.1 优点

是 raw alpha，不是 filter/overlay
直接覆盖 1m/5m/60m
数据公开可得
结论对当前 desk 很有用：先补 baseline，再谈 fancy 方法
与最近几篇 copula / factor / cluster pairs digest 正好形成互补

8.2 限制

当前轮拿到的是 abstract + metadata，不是全文；
没有公开 repo；
样本只覆盖 2022Q1，可能带有当时波动结构偏好；
摘要给了总收益和相对排序，但没公开足够细的 strategy parameters。

所以最合适的定位是：

> 这不是一篇“今天就能 1:1 照抄上线”的 complete shell；它更像是 pairs 研究线里必须先补的 baseline thesis。

9. 下一步怎么测

这轮最值得马上做的，不是再找第 7 种 selector，而是：

A. 先做 baseline replication

用 Binance USDⓈ-M 1m 数据，聚合出 5m/15m
先跑 Distance selector + spread z-score fade
看扣完 realistic fee/slippage 后是否仍有 pocket

B. 再做 selector ablation

按同一 execution 壳，对比：

Distance
Cointegration
Hurst
我们最近 intake 的 copula / dynamic-factor / cluster-first

C. 再问一个真正 desk 的问题

不是“谁 gross 最好”，而是：

谁的 pair turnover 更低？
谁的 spread half-life 更短？
谁在 5m/15m 上 成交更友好？
谁对 funding conflict / event shock 最不敏感？

如果 Distance baseline 已经能接近或击败复杂方法，那后续很多 pairs 研发就该改方向：

> 把精力从“更花的 selector”转向“更好的 veto / execution / sizing”。

10. 一句话结论

这篇 2024 论文最值得保留的，不是“crypto pairs 也能做”这句废话，而是更具体的一句：

> 在 crypto intraday pairs 上，Distance 这类低参数 pair selector 很可能应该是第一基线；复杂方法不是默认更优，而是必须拿增量结果来证明自己。