← 返回 Quant Digests · 站点首页

别把 1 秒级方向分类仓库只读成“更高准确率”:这份 2026 新 repo 更该先测的是「LOB 概率边 × 滚动分位阈值」1m/3m 事件驱动 raw alpha

更新时间:2026-03-26 05:34 UTC 研究时间:2026-03-26 05:36 UTC 类型:2026 GitHub 新仓库 + 经典 limit-order-book literature + Binance Futures 公共 `1m` 最小快检 主题标签:raw-alpha/microstructure/lob/lightgbm/probability-edge/rolling-quantile/event-driven/time-series/btc/eth/binance/perpetual/1m/3m/5m/15m/repo/paper/execution 证据类型:仓库证据 + 经典论文地基 + 本地快检

源文件:research/quant_digests/2026-03-26_0536_lob-lgbm-quantile-timing-alpha.md

> 先回答 base alpha:这不是 filter,也不是纯 execution 小技巧。base alpha 就是“当前 LOB / trade-flow 微观结构状态 → 接下来几分钟方向边”的单资产 directional raw alpha;repo 真正值钱的是它把这条边完整翻译成了 cost-aware 策略骨架。

1. 这次看了什么

主线材料不是论文,而是一份很新的 GitHub 仓库:

它的 headline 看起来像“用 1 秒级特征做 BTC 方向分类”,但对我们 desk 更有价值的其实不是分类本身,而是它已经把整条链条补齐了:

  1. 原始事件流 / order book 重建
  2. 1s 特征工程
  3. 成本感知标签(mild / positive / negative)
  4. purged walk-forward 训练
  5. 概率输出转 signal score
  6. 滚动分位数阈值进出场
  7. 明确收费的 long-only 回测

所以它不是“又一个 microstructure explainability notebook”,而是一个可直接移植到 desk 的超短周期 directional alpha skeleton

2. 我最关心的不是 headline,而是这 4 个可落地部件

2.1 成本感知标签先把小波动踢掉

仓库没有直接把所有未来收益都硬分成涨跌,而是先定义一段 mild 中性区:

max(MILD_RETURN_THRESHOLD, fee_rate * threshold_multiplier)

这一步很值钱,因为它等于先承认: 小于手续费门槛的预测,就算方向猜对,也不该被当成可交易 alpha。

2.2 概率边不是直接拿来追价,而是先压成 signal score

仓库的核心不是 argmax(class),而是:

signal = EWM((prob_positive - prob_negative) * (1 - prob_mild))

也就是:

这比“模型分类结果 > 0.5 就开仓”成熟得多。

2.3 进出场阈值不是固定常数,而是 lagged rolling quantile

进场与平仓条件不是一个手填阈值,而是:

这非常适合 crypto,因为微观结构分布本来就会随流动性、时段、波动状态漂移。

2.4 训练验证至少把最容易犯的 leakage 避开了

仓库不是乱序交叉验证,而是:

对这种分钟内 / 秒级标签重叠很严重的问题,这是最起码的诚实做法。

3. 关键数值先看 repo 自带结果:原样照搬并不算惊艳,但骨架很有价值

仓库自带 overall_metrics_*.csv,给了多组 horizon 的 out-of-sample 汇总。最值得记的不是“准确率”,而是净收益、毛收益和持有时长怎么变

3.1 repo 原始结果(Gemini BTC,long-only,fee=10 bps)

3.2 这组结果真正说明什么

不是“3m 没边,所以 repo 无用”,而是:

  1. 方向信息是有的:15m/30m 的 gross return 为正,说明模型没完全瞎猜。
  2. 执行/成本吞噬很重:3m/10m 从 gross 到 net 明显被手续费吃掉,说明短 horizon 版本必须靠更好的触发稀疏化、maker/taker 切换或更低 fee 才能活。
  3. repo 其实更像一套 timing stack,而不是现成印钞参数:最值钱的是“概率边 → 平滑 → 自适应阈值 → 风控”的链条。

换句话说:它是完整策略候选,但不是“拿来就能在 BTC 上直接抄作业”的完整策略。

3.5 策略拆解(必填)

4. 为什么这条线和当前 desk 直接相关

它和我们昨天那篇 3s microstructure taker alpha 不完全重复,差别在于:

  1. 昨天那篇更像“有没有这条边”
  2. 今天这份 repo 更像“怎么把这条边治理成策略”

因此它的价值不在于再证明一次 OFI / imbalance 有信息,而在于提供了 3 个我们可以直接拿走的组件:

这 3 个组件不止能服务单币 BTC,也能服务:

5. 本地最小快检:把 repo 思路压到 Binance 公开 1m futures K 线后,还剩下多少影子

我没复刻 repo 的完整 1 秒 order book,而是做了一个更便宜的代理快检:

数据源:Binance USDⓈ-M Futures 公共 1m K 线(BTCUSDT / ETHUSDT,最近 10 天)

代理特征

5.1 结果怎么读

这不是 repo 的正式 replication,只是看: 如果只能先拿公开便宜数据,repo 的微结构方向边能不能在 1m/3m/5m/15m 上留下痕迹?

5.2 快检数字

ETH 比 BTC 更像能留下可见影子的标的。

5.3 这组快检最重要的含义

6. 对 desk 的最合适读法

如果强行把这份 repo 读成“BTC 3m long-only 现成策略”,我觉得不值得。

但如果把它读成下面这三件事之一,就很值得:

6.1 1m / 3m 事件驱动 long timing raw alpha

当微结构压力连续两个分钟代理或若干秒级片段同向极端时,触发一笔独立 micro-trade。

6.2 5m 主策略的 entry timing layer

5m 主策略已经想做多时,不是立刻吃,而是等:

6.3 微结构模型的统一治理模板

以后不管底层是 LASSO、LightGBM、LOB Transformer 还是简单 OFI,都可以统一套:

7. 下一步怎么测(最应该先做的 4 组实验)

7.1 用真 1s 公共数据复刻,不要再停在 1m 代理

数据源:Binance Data Vision bookTicker / aggTrades / depth snapshots(公开可得)

标的BTCUSDT / ETHUSDT / SOLUSDT

窗口:最近 14~30

7.2 先测 3 组 horizon,而不是一口气扫大网格

因为 repo 结果已经暗示:太短容易被费用吃掉,太长又会把 micro edge 稀释掉。

7.3 先测这 3 个治理变量

  1. persistence gate:信号连续 N 秒同向才开仓
  2. threshold mode:固定阈值 vs rolling quantile
  3. execution mode:taker-only vs maker-disabled-in-stress vs hybrid

7.4 最关键的评估指标

8. 我现在的判断

这是一条值得继续 intake 的 raw alpha 线,但当前最合理的定位不是“直接上 BTC 3m long-only”,而是:

所以它进入研究池的理由不是“repo 绩效惊艳”,而是: 它把一个本来容易写成黑箱分类器的 raw alpha,拆成了可治理、可 stress、可迁移的完整骨架。

9. 风险与保留意见

10. 来源

  1. kailiu0712. (2026). _-5-min-level-Directional-Prediction-for-Crypto-HFT_. GitHub repository.
  1. Cont, R., Kukanov, A., & Stoikov, S. (2014). _The Price Impact of Order Book Events_. Journal of Financial Econometrics.
  1. Kolm, P. N., Turiel, J., & Westray, N. (2023). _Deep order flow imbalance: Extracting alpha at multiple horizons from the limit order book_. Mathematical Finance.
  1. Binance USDⓈ-M Futures API / public klines

11. 本地快检产物