← 返回 Quant Digests · 站点首页

别把 LOB 论文继续读成“要上 DeepLOB”:这篇 2025 arXiv 更该先测的是「Savitzky-smoothed depth imbalance × simple-model continuation」这条 microstructure raw alpha

更新时间:2026-04-06 00:43 UTC 研究时间:2026-04-06 00:40 UTC 类型:2025 arXiv 全文 HTML + Bybit public historical LOB portal + Bybit orderbook API docs source audit 主题标签:raw-alpha/microstructure/order-book/depth-imbalance/mid-price/continuation/denoising/savitzky-golay/kalman/logistic/xgboost/deeplob/bybit/btcusdt/1m/3m/5m/15m/paper/public-data/cost/risk 证据类型:arXiv 全文给出样本、特征、去噪流程、分类任务、深浅模型对比、准确率与 runtime 表;Bybit 历史盘口与 API 文档公开可拿

源文件:research/quant_digests/2026-04-06_0040_sg-lob-imbalance-continuation-alpha.md

1. 这次看了什么

主看的是:

Wang, Haochuan (2025). _Exploring Microstructural Dynamics in Cryptocurrency Limit Order Books: Better Inputs Matter More Than Stacking Another Hidden Layer_. arXiv.

这篇最值钱的点,不是又来一遍“LOB 可以预测短期价格”,而是它把一个对当前 desk 很实用的结论讲得很明确:

> 真正值得先拿走的,不是继续堆更深网络,而是先把盘口噪声压掉,再用更简单、更快、更可解释的模型做方向票数。

论文用 Bybit BTC/USDT 100ms 盘口快照,比较了 Logistic、XGBoost、CatBoost、CNN+LSTM、CNN+XGBoost、DeepLOB,在 100ms / 500ms / 1000ms 预测窗口下,测试 raw / Kalman / Savitzky–Golay 三种输入。对我们 desk 来说,最该 intake 的不是“哪路网络名字更大”,而是这条可以直接改写成交易壳的 denoised depth-imbalance continuation raw alpha

2. 先回答一句:这篇东西的 base alpha 是什么?

base alpha = 去噪后的多档盘口不平衡 + 微价格变化 所隐含的短时 continuation。

翻成人话:

所以它不是单纯 filter,也不是纯解释型材料;它本身就是一条 microstructure raw alpha,只不过天然更适合 1m / 3m,再往 5m 外推,而不是硬写成 15m 主信号。

3. 为什么这轮值得进研究池

先问一句:它为什么比继续补一个 shared gate 更值得?

因为这轮拿走的是一条可以独立复现、独立回测、独立定价成本的 完整快频 raw alpha 骨架

  1. 数据公开可拿。
  2. 论文主数据来自 Bybit 历史盘口下载页;live 版也能接 Bybit orderbook API / websocket。

  3. 信号本体清楚。
  4. 不是黑盒 embedding,而是 imbalance / spread / weighted mid / depth 这类能解释的微结构量。

  5. 和现有 OBI/OFI intake 不重复。
  6. 我们之前已经 intake 过不少 “盘口不平衡本身”;这篇真正新增的是 SG/Kalman 去噪 + 深浅模型对照 + 深度层数 trade-off

  7. 能直接落地 entry / exit / sizing / risk / cost。
  8. 只要把 sub-second score 聚合成 minute conviction,就能形成独立交易策略,而不只是 execution veto。

4. 论文里最值得拿走的证据

4.1 真正有增量的不是更深网络,而是 Savitzky–Golay 去噪

论文最有用的一组结果,是 binary classification 下的 500ms / 1000ms horizon:

也就是说,单看这组,先去噪换更复杂模型 重要得多;而且 SG 对 simple models 的帮助,明显强于 Kalman 在这篇里的默认调参结果。

再看 1000ms, 40-level LOB, SG

这说明:

4.2 ternary 结果同样支持“先把噪声处理好”

ternary classification 里,500ms, 40-level LOB

1000ms, 40-level LOB

这类结果对 desk 的实际意义是:

> 当你把任务写成 up / flat / down,而不是强迫模型每次都二选一时,去噪后的盘口特征更适合做“有把握才开仓”的 conviction score,而不是每根都出手。

这正好适合我们把它改成:

4.3 深度层数很关键:40-level 信息明显强于浅层简化版

论文还给了一个很值钱的 portability 提醒:

SG + XGBoost + T=1 的对照里:

翻成人话:

这对 1m / 3m 很重要,因为真实数据流里,深度缺失、快照抽样不齐、不同 venue 的 L2 完整度都会影响信号稳定性。

4.4 简单模型也能做到“够快 + 够强”

论文的 sequence-length 对照说明:

不是说这些 runtime 数字能直接外推到我们环境,而是说明了一件事:

> 对这类盘口 alpha,轻模型 + 好输入 很可能比 重模型 + 原始噪声输入 更适合做快速迭代和 walk-forward。

这很符合当前 desk 的目标:先补可快速复现的 alpha 素材池,而不是先陷进大模型工程。

5. 对当前 short-cycle desk,最诚实的读法是什么?

最诚实的读法不是:

更合理的读法是:

也就是说,这篇更适合服务:

但这轮 digest 里,我们把它优先保留为 可独立回测的 raw alpha,不是只写成 shared gate。

6. desk 版策略骨架

6.1 数据与特征

特征先不要贪多,先做这几类:

每个特征并排保留三版:

6.2 信号定义

最小可交易版,不直接用论文里的 accuracy 做文章,而是把模型输出改成 minute conviction

  1. 1s 训练 / 推理一次下一段 1s3s 的方向分数:score_t = p(up) - p(down)
  2. 聚合到 1m
  1. 开仓规则:

这条线本质上还是 raw alpha,因为它直接决定方向,而不是只给 veto。

6.3 entry / exit / sizing / risk / cost

Entry

Exit

Sizing

Risk

Cost

7. 1m / 3m / 5m / 15m 怎么映射

1m

这条线最自然的主战场。

3m

适合做更稳一点的持有版本。

5m

更适合作为:

15m

不建议把这条线直接硬写成 15m 主信号。

更合理的用途是:

8. 最小可复现实验

实验 A:去噪是否真的带来可交易增量?

并排回测三条线:

  1. raw LOB features
  2. SG-smoothed LOB features
  3. Kalman-smoothed LOB features

统一:

看:

如果 SG 明显优于 raw,而 Kalman 不稳定,那就说明论文里的核心增量可以迁移。

实验 B:深度层数 portability

并排:

目的不是单纯找最高 accuracy,而是找:

如果 top40 只有 paper-level 好看、实盘缺失率太高,就退到 top10/top20 做 portable 版本。

实验 C:独立 raw alpha 还是 price alpha 的 child execution?

并排:

  1. 纯盘口 conviction standalone
  2. 价格 breakout/continuation alpha 单独跑
  3. 价格 alpha + 盘口 conviction 同向才开仓

这一步是为了回答:

9. 数据源、公开性与最小复现实验口径

这条主题的外部数据不是低频宏观,而是 公开可拿的高频盘口数据

  1. Bybit historical data portal
  1. Bybit orderbook API / websocket

最小复现实验口径:

这样可以最快回答:这条 edge 是真 alpha,还是只是一组 paper-level classification number。

10. 风险与保留意见

11. 来源

  1. Wang, H. (2025). _Exploring Microstructural Dynamics in Cryptocurrency Limit Order Books: Better Inputs Matter More Than Stacking Another Hidden Layer_. arXiv.
  1. Bybit Historical Data Download(论文主数据源)
  1. Bybit API Documentation — Get Orderbook

12. 下一步怎么测(一句话)

先在 BTCUSDT Bybit 100ms LOB -> 1s score -> 1m conviction 这条链路上并排回测 raw / SG / Kalmantop5 / top10 / top20 / top40,若 SG 版在 after-cost、mean-log-return、gross-to-net decay 三项里都更优,再把它升级成 1m/3m 独立 microstructure raw alpha 壳。