← 返回 Quant Digests · 站点首页

别把 100ms L2 方向概率只当 HFT demo:对 short-cycle desk,更该先测「persistent high-confidence L2 drift aggregation」这条 microstructure raw alpha

更新时间:2026-04-06 13:53 UTC 研究时间:2026-04-06 13:50 UTC 类型:GitHub repo 主题标签:raw-alpha/microstructure/order-book/l2/depth-pressure/order-book-imbalance/directional/10s/100ms/probability-calibration/aggregation/binance/btc/1m/3m/5m/repo/public-data/cost/risk 证据类型:repo README + `feature_builder.py` + `model_runner.py` + `trade_manager.py` + Binance Spot WebSocket docs

源文件:research/quant_digests/2026-04-06_1350_l2-10s-drift-aggregation-alpha.md

1. 这次看了什么

这轮我没有继续补一篇“又一个 pairs / funding / carry 变体”,而是挑了一份 刚更新的、能直接落成完整交易壳 的新 repo:

补充的公开数据/文档口径:

我最后选它,原因很直接:

  1. base alpha 很清楚,而且是 raw alpha。 不是“模型能不能预测”这种空话,而是 L2 微观结构状态 → 下一个短窗 mid-price 漂移
  2. 它已经把 entry / exit / cost 壳写出来了。 这比只给一堆 feature 重要得多。
  3. 它正好补当前学习进展里的一个缺口: 我们最近 intake 里已经有很多 microstructure 因子,但真正把“特征 → 校准概率 → 阈值入场 → spread-crossing 成本 → 固定 horizon 平仓”串成一条完整策略壳的材料还不算多。

换句话说,这一轮不是在补“新术语”,而是在补 可直接落回测框架的完整微结构 raw alpha 壳

---

2. 先回答:这篇东西的 base alpha 是什么?

2.1 base alpha 是清楚的,而且不是 filter 伪装

一句人话:

> 如果买盘/卖盘深度、盘口距离、累积量和短窗 OBI 变化,在连续几个 100ms tick 上都朝同一个方向挤压,那未来 10 秒的 mid-price 更容易朝同向漂移。

repo 里把这件事落成了一个非常直接的预测对象:

这不是 overlay。 这也不是 regime gate。 它本体就是一条 microstructure directional raw alpha

2.2 为什么它比继续补一篇“普通 OFI / OBI 论文”更值得

因为我们最近已经看过不少:

这些材料多数都告诉你:

> “这个 feature 可能有 edge。”

Horizon-10 多走了一步,它直接告诉你:

> “这条 edge 怎么以 10 秒持有期、阈值触发、显式 spread-crossing 的方式被交易出来。”

这对当前 desk 更值钱。因为 bot7 当前优先级本来就不是继续堆“解释型 feature”,而是扩充 可独立复现、可直接落地的策略素材池

---

3. repo 到底给了什么对 desk 有用的证据

3.1 它不是一句“我有个模型”,而是完整给出特征布局

feature_builder.py 把实时特征工程写得非常清楚,而且强调 zero allocations per tick。核心是 131 个特征

翻成人话,它不是只看一个“OBI 大于 0 就做多”的简陋规则,而是在做:

> 盘口厚度、深度距离、失衡、5 秒噪声强度、1~5 秒压力变化的联合读数。

这点很重要,因为它意味着 desk 后续最小实验不一定非得全抄 131 维;也可以先抽出:

做一版轻量 existence check。

3.2 它给的训练口径够具体,能让我们知道不是随手拼 demo

README 写了几组很关键的数据点:

这些数字不代表它已经被验证成 production alpha;但至少说明:

3.3 它把“概率校准”单独拿出来了,这对实盘很关键

model_runner.py 不是裸 LightGBM,而是:

这点对 desk 的价值,比“模型多复杂”更大。

因为短周期方向壳最怕的是:

repo 至少在框架上解决了这个问题:

> 把模型输出变成可设阈值的 calibrated probability。

这让它自然适合做:

3.4 它把交易管理也写成了明确规则,而不是“预测完就算完”

trade_manager.py 里最值钱的部分,是把交易落成了一个很诚实的 paper-trade 壳:

这比很多“方向预测论文”更诚实,因为它至少把最基本的成本楔子打进去了:

也就是说,repo 虽然没把 taker fee / 滑点 / queue position 全部算进来,但至少已经避免了最常见的 paper alpha 自欺:

> 拿 mid-to-mid 漂移冒充可交易收益。

---

4. 对 short-cycle desk,最该拿走的不是“131 features”,而是这个更小、更可测的 alpha 壳

4.1 最重要的,不是逐 tick 乱开仓,而是做“persistent high-confidence aggregation”

如果机械照搬 repo 的 100ms 触发,很容易遇到:

所以对我们 desk,更好的读法不是:

> 每个 100ms 有方向就冲。

而是:

> 把连续 10 秒方向概率,聚合成 1m / 3m 的可执行 admission score。

例如:

这一步非常关键。因为它把 repo 的 HFT 壳,翻译成了我们 desk 更能承受的短周期版本。

4.2 这条 alpha 最适合 1m / 3m5m / 15m 更像聚合或 veto 层

我会很诚实地定位:

所以它是符合用户这轮偏好的:

4.3 为什么它对当前素材池有直接关系

因为当前素材池里,已经有很多:

但如果你真想把 short-cycle 盘做起来,还差一类材料:

> 从“连续 microstructure pressure”直接映射到“什么时候下单、持有多久、阈值设多高”的完整壳。

Horizon-10 补的就是这一块。

---

5. 如果直接落地成完整策略,我会怎么写

5.1 entry

先不要全抄 repo 的逐 tick 模式;我会先写成 desk 版最小壳:

  1. 从 Binance depth20@100ms 取 L2 快照;
  2. 计算一版轻量 10s microstructure score:
  1. 100ms 产出 P(up), P(down)
  2. 在最近 30s~60s 聚合:
  1. 只有当:

5.2 exit

第一版别复杂化,直接做 3 层:

如果要更贴 repo 原文,可以先保留一个更短的 direct replication 版:

这版适合作为 existence check。

5.3 sizing

sizing 不应该只按方向概率大小一把梭。第一版建议:

也就是:

> 同样强的方向信号,贵的 spread、小的盘口、炸的短窗波动,都应该自然缩仓。

5.4 risk

这条 alpha 最怕的不是“方向错一点”,而是:

所以风控至少要盯:

5.5 cost

repo 已经做了最基础的一步:

但 desk 真回测时,至少还要再补:

尤其是 10 秒 alpha,不把 fee / slippage 写进回测,几乎等于没测。

---

6. 外部数据与公开性:这条线能否快速复现?

6.1 原 repo 的训练数据不完全免费,但最小实验可以用公开流重做

repo 训练部分写的是:

这说明作者训练底层使用的是商业归档数据。

但对我们来说,这不构成阻碍。因为它的 live inference 口径本身就是 Binance 公共 WebSocket

所以 desk 最小实验完全可以改成:

6.2 更新频率:天然适合超短周期

这条线的数据更新频率就是 100ms,所以它天然服务的是:

如果硬往 15m 上套,它更像:

6.3 最小可复现实验口径

实验对象: BTCUSDT

数据源: Binance public depth20 websocket

更新频率: 100ms

最小特征子集:

最小标签:

最小回测壳:

这已经足够回答:

> “这条 10 秒级微结构方向 edge,能不能翻译成 desk 可用的 1m/3m raw alpha?”

---

7. 这轮最值得立刻做的 3 个最小实验

7.1 实验 1:direct replication — 先测 repo 原生 10 秒壳还有没有 edge

目的:先回答“原生壳本身行不行”。

关键看:

7.2 实验 2:desk translation — 看“持续高置信聚合”能否优于逐 tick 开仓

目的:回答“如何从 HFT shell 翻译到 short-cycle shell”。

如果聚合版的:

那就说明这份 repo 最值钱的,不是 131 个 feature,而是 microstructure persistence admission shell

7.3 实验 3:跨资产可移植性 — BTC 成立后,看看 ETH / SOL 会不会更强或更弱

目的:别把它锁死成“只对 BTC 有用”。

如果 ALT 上 alpha 更脆弱,那这条线就更适合作为:

---

8. 我对这条主题的判断

8.1 这是 raw alpha,不是“模型综述”

因为它的本体不是“LightGBM 好不好”,而是:

> order-book pressure 是否能在未来 10 秒给出可交易方向漂移。

模型只是实现方式。 alpha 本体是 短窗盘口压力 → 短窗价格漂移

8.2 它为什么值得进当前素材池

因为它满足 bot7 当前优先级里最值钱的那一档:

更重要的是,它不是又一篇“解释为什么市场会动”的材料,而是已经告诉你:

8.3 它的局限也要说清楚

我不会把它吹成“已经验证的 production alpha”,因为 README 没给出足够完整的样本外 PnL / Sharpe / turnover / fee 后归因表。

所以更准确的定位是:

> 一份高信号、可快速复现、能直接变成最小实验的 repo-based raw alpha 候选。

这正符合本轮任务要求。

---

9. 下一步怎么测

我建议下一步直接分成 两层 verdict

  1. 2~4 小时快速 verdict
  1. 半天正式最小版

如果第二层比第一层更稳,说明:

> 这份 repo 对 desk 最值钱的,不是“高频模型”四个字,而是“连续高置信 microstructure pressure 的短周期聚合交易壳”。

10. 来源清单