← 返回 Quant Digests · 站点首页

Kim, Na, Song(ICAIF 2025)+ ORCA repo:别把 pairs 选对继续写成“谁和谁最像”,对 short-cycle desk 更该先测的是「tradability-aware clustering × OU spread raw alpha」

更新时间:2026-04-03 16:17 UTC 研究时间:2026-04-03 16:25 UTC 类型:论文 + GitHub 仓库 + Binance Futures 公共 `15m` 最小快检 主题标签:pairs / stat-arb / relative-value / mean-reversion / clustering / OU / tradability / admission-layer / Binance-perpetual / 1m / 3m / 5m / 15m / paper / repo / public-data 证据类型:ICAIF 2025 论文摘要 + 开源实现 + 本地 Binance 公共数据 sanity check

源文件:research/quant_digests/2026-04-03_1625_orca-tradability-cluster-pairs-alpha.md

先回答 base alpha:这篇东西的 base alpha 不是“PINN 很酷”,而是非常老实的 spread 回归均值。真正的新意在于:别再用“相关性高 / 距离近”去挑 pairs,而是直接用“这组资产未来更可能形成稳定 OU spread”去挑。对我们 desk,这比继续在 entry band 上卷花活更值钱。

1) 这次看了什么

这次主看两份材料,再加一个本地最小快检:

  1. Kim, Namhyoung; Na, Yosep; Song, Jae Wook (2025), *Deep Mean-Reversion: A Physics-Informed Contrastive Approach to Pairs Trading*, Proceedings of the 6th ACM International Conference on AI in Finance (ICAIF'25)
  1. GitHub: x7jeon8gi/ORCA(2025)
  1. 我做的本地 Binance Futures 15m sanity check12 个主流 USDT perp,约 30d,共 66 个 pair,结果存于 reports/artifacts/quant_digests/2026-04-03_orca_pairs_sanity.csv)。

2) 论文/仓库里真正值得 desk 拿走的,不是模型名,而是 pair formation 目标函数

OpenAlex 还原出的摘要里,这篇论文的关键信息很直接:

翻成人话:

> 你不该先问“哪两个币最近一起涨跌”,而该先问“哪两个币配出来的 spread 更像会回来的东西”。

这对 crypto short-cycle desk 的意义非常大,因为很多我们现在会做的 pair mining 其实默认是:

ORCA 提醒的是:pair formation 本身就应该是 alpha 的一部分。 不是先把 pair 选烂,再指望 entry/exit 把烂 pair 救回来。

3) 为什么这条线现在值得写,而不是继续补一个普通 z-score pairs

因为我们最近 pairs 素材已经不少了,但很多还是停留在:

这些都重要,但它们默认你已经有一批够像“会回归”的 pair。 而 ORCA 的价值正好卡在更上游:

3.1 它服务的不是一个 filter,而是 raw alpha 的“候选生成层”

这不是单纯 overlay。 因为对于 pairs 来说,pair admission / pair formation 本身就决定了 raw alpha 是否存在。 如果挑出来的 spread 半衰期太长、漂移太慢、结构不稳定,后面所有 z-score 触发都是假勤奋。

3.2 它对 crypto 特别有意义

crypto 里高相关非常廉价:

但“高相关”不等于“spread 可交易”。 可交易的 mean reversion 需要更具体的东西:

ORCA 这篇最值钱的地方,就是把这些原本要靠人工后筛的性质,前移到 pair formation 目标里。

3.5) 策略拆解(必填)

4) 一个很有用的 desk 结论:别先问“哪两个币最像”,先问“哪两个币的 spread 最像会回来的东西”

这篇 digest 真正想推进的,不是“上 PINN”。 而是把我们 desk 的 pairs 研究顺序换掉:

旧顺序

  1. 找高相关/同叙事币
  2. 跑 cointegration
  3. 调 z-score
  4. 抱怨 cost 太高 / pair 不稳定

更好的顺序

  1. 先定义 tradability score
  1. 再用模型或规则,优先生成 tradable clusters / tradable pairs
  2. 最后才在 entry/exit/sizing 上细化

也就是说,ORCA 对我们最值得抄的不是“深度学习”,而是“pair admission objective 要改”。 如果先用更土的规则版也能跑,就已经够值钱。

5) Binance 15m 最小快检:高相关 pair 里,很多根本不是好 spread

我做了一个很粗但很实用的 sanity check:

5.1 先看一个很刺眼的数字

在这 66 个 pair 里:

这句话已经够说明问题: 高相关 pair 远多于可交易 pair。

5.2 几个例子特别说明问题

高相关但很慢、甚至不怎么回:

相关性没那么夸张,但更像“能交易”的:

这正好对应 ORCA 想解决的问题: 相似性排序和 tradability 排序不是一回事。

5.3 这组快检对 desk 的启发

5m/15m 短周期 pairs,pair formation 至少该多看三件事:

  1. half-life:太慢的 pair,不适合短周期 desk;
  2. crossing density:长期不回零的 pair,不值得占用额度;
  3. residual stability:残差幅度太漂、太容易 regime shift,也不行。

所以这篇 digest 更该落地成: OU-aware admission layer,而不是“上一个论文模型名字”。

6) 对 1m / 3m / 5m / 15m 的 desk 翻译

6.1 不直接照抄论文的数据口径

原论文和 repo 用的是 WRDS / CRSP 月频股票特征,repo 默认也是:

这不能直接冒充成“论文已经证明 crypto 5m/15m 有效”。 但它提供了一个非常可迁移的研究模板:

> 用更像 OU 的 pair / cluster 去喂一个简单 spread strategy,往往比用普通相似性 pair 再去拼命调 entry 更有价值。

6.2 short-cycle 版本怎么最小落地

先不用上神经网络,先做一个 规则版 ORCA

  1. Universe
  1. Candidate generation
  1. Tradability score(这一步是本篇核心)
  1. 只保留 top-K tradable pairs
  1. Execution shell

6.3 如果规则版先有结果,再考虑上模型

只有当规则版 admission layer 已经显示:

再往前走到:

7) 下一步怎么测(本篇最重要的部分)

实验 A:先做“规则版 ORCA admission layer”

目的:先验证“选 pair 目标函数”是否比“调 threshold”更重要。

  1. Top corr pairs
  2. Top tradability-score pairs

要看的输出:

实验 B:5m vs 15m 的 half-life 适配区间

目的:别让慢 spread 混进短周期 book。

如果 alpha 主要集中在 half-life > 100 bars,那它就不是 short-cycle desk 该优先做的东西。

实验 C:pair score 里要不要加 funding / OI / liquidation 公开数据

目的:把 tradability score 往 crypto 特有结构再推一步。

给 score 加三个候选特征:

看这些特征是:

实验 D:从单 pair 走向 cluster-neutral book

目的:把 ORCA 真正的“cluster”思想 desk 化。

8) 我对这条线的判断

值得进研究池,而且优先级偏高。

不是因为“深度学习 + physics-informed”这串词听起来厉害, 而是因为它很准确地击中了我们 pairs 研究里一个真实痛点:

> 很多 pair 研究失败,不是输在 entry/exit,而是输在一开始就选了不该做的 pair。

如果后续规则版 admission layer 就能显著提升:

那这条线就可以自然扩成:

  1. 一个独立 raw alpha(tradability-aware pairs book)
  2. 一个 shared component(给其他 pairs / stat-arb 策略共用的 pair admission 层)

9) 风险与保留意见

10) 来源

论文

开源仓库

本地最小快检