源文件:research/quant_digests/2026-03-28_1115_base-imbalance-hawkes-eventtime-alpha.md
这次主看的是:
> Raffaele Giuseppe Cestari, Filippo Barchi, Riccardo Busetto, Daniele Marazzina, Simone Formentin (2023 arXiv / 2025 ECC) > Hawkes-based cryptocurrency forecasting via Limit Order Book data
以及它明确承接的 precursor:
> Riccardo Busetto, Simone Formentin (2023) > Continuous-time modeling of financial returns based on Limit Order Book data
先回答这轮最重要的那句:这篇东西的 base alpha 是什么?
不是“LOB 很重要”,也不是“用 Hawkes 很高级”。
更直接地说:
> 盘口前几档的形状不对称,本身就带着下一次价格有效变动的方向信息;而当簿上事件到达很密、下一次 event 很快就要来时,这条方向信息更有机会在极短窗口里兑现。
所以它不是纯 filter,也不是只服务某个 breakout / retest 的附庸。它本身就是一条微结构 raw alpha:
base imbalance -> next-event return signhigh self-excitation / short expected inter-arrival time1m 为主,3m 次之,5m 还能测,15m 更像聚合或上层编排窗口为什么这轮值得补它?因为最近 intake 里:
这篇虽然不是最终可直接上实盘的完整答案,但它给了一个很清楚的可复现原子信号:
> book-shape edge 不该只按 bar-close 静态读,而该和“下一次事件多久来”一起读。
论文的结构很简单:
Oracle:假设你神知道下一次 event 时间Naive:假设下一次 event 固定 1 秒后到来MA:假设下一次 event 在过去 60 秒平均间隔后到来Hawkes:根据自激强度动态预测真正值钱的不是“又一个分类器”,而是这个拆法:
> 方向信息和事件时钟要分开建模。
这点对 desk 很重要,因为很多短周期研究会把“有没有 edge”和“edge 何时兑现”揉成一个黑箱概率。这个 paper 则把它拆成:
这比直接做一个 end-to-end 黑箱分类器更容易移植、调试、做失败归因。
论文沿用 precursor 里的 Base Imbalance(BI) 定义。它不是常见那种“买一量 - 卖一量”的单点深度差,而是用盘口前若干档价格曲线形状去衡量 bid / ask 两边的“厚薄不对称”。
文中的公式可写成:
BI_k = ((P_bid,1 - P_bid,10) - (P_ask,10 - P_ask,1)) / ((P_bid,1 - P_bid,10) + (P_ask,10 - P_ask,1))
翻成人话:
论文在去掉零收益事件后,把数据按 decile 分箱,得到:
corr(avg BI, avg future return) = -0.96这个数字非常夸张。它不等于“直接可交易收益率 = 很高”,但说明:
> BI 和未来 return sign 的关系不是弱相关噪音,而是强结构。
所以真正的 raw alpha,不是“Hawkes 预测下一次 event 很厉害”,而是:
> 盘口形状本身就带方向,只是这个方向需要配合“事件马上要来”才更容易兑现。
论文用的是 Bitfinex 上 USDT/USD 的 LOB 数据,由 CryptoTick 提供:
作者还给了几个很重要的口径提醒:
验证与仿真设置:
交易仿真规则非常朴素:
这也直接决定了我们该怎么读这篇文章:
论文的 headline 是:
Hawkes 在 return sign accuracy 上优于 Naive 和 MAOracle,但当然仍不如 Oracle虽然文中可读文本没有直接给出每个 boxplot 的精确数值,但有三个结果是明确的:
-0.96)这点很关键,因为如果你把这篇 paper 简化成:
> “Hawkes 比 Naive 更准”
那就读窄了。
更实用的 desk 读法应该是:
> book-shape alpha 的兑现速度,本身就是状态变量;当 event clustering 很强、下一次簿上事件很快发生时,盘口信息更值得下手。
因为它首先回答得清:基础 alpha 是什么。
不是 trend gate,不是 regime veto,不是 position sizing。它有自己独立的方向逻辑:
它当然也能往下拆成:
但这些都是二次利用。
它的第一性身份仍然是:
> 可独立建模、可独立回测、可独立关停的微结构 raw alpha。
原论文太贴近 1 秒级 event clock;如果你直接照抄,多半会遇到两个问题:
所以更适合 desk 的最小版本,不是“完整复制论文”,而是把它拆成三层:
先复刻一个更朴素的 BI_t:
1s 或 5s 重采样一次BI_t 做 rolling z-score第一版甚至不必硬上完整 Hawkes MLE,可以先做 proxy:
5s / 10s / 30s 的 order-book update count等确认“clock 确实改善兑现”后,再升级成真正的 Hawkes。
初版规则可以非常诚实:
BI_z 进入极端分位(如 97.5%)event-intensity_z 高于某阈值(如 80% 分位)BI_z 进入反向极端分位(如 2.5%)event-intensity_z 同样很高这就把论文的精神保住了:
> 不是 book shape 一极端就交易,而是 book shape 极端 + next-event 真的快要来。
这里要很诚实。
1m因为这条线本质就是微结构 + event-time。
1m 最接近原论文的短兑现逻辑;1m 都没东西,往上大概率只会更稀释。3m这是最值得测的“可交易化 compromise”。
5m5m 更像在问:
> 盘口形状与 event burst 是否会引出一个更长的 follow-through,而不是只是一跳 micro-move?
如果 5m 还有残留 edge,这条线的价值会大很多,因为它能更容易接入当前短周期策略栈。
15m 不该硬装成主信号到了 15m,这条线更像:
也就是说:
1m / 3m:更像 alpha 本体5m:看能否外溢成更稳 pocket15m:更像上层编排变量可直接用公开可抓的交易所 websocket:
最小版只需要:
1s、再聚合到 1m / 3m / 5m / 15m标的先别铺太广,建议先做:
回测框架:
BI_tevent_intensity_t1m / 3m / 5m / 15m forward mid return signBI onlyintensity onlyBI × high-intensity gatefull Hawkes/COE(第二阶段再做)如果要把它写成真正能跑的最小策略,而不是论文摘要,我会先这么做:
BI_z 极端 + event_intensity_z 高三层足够:
1m / 3m / 5m / 15m 多档BI_z 回到中性带不建议满仓,建议:
size ∝ clip(|BI_z| * intensity_z, 0, cap)最关键的不是方向逻辑,而是三件事:
所以这条线很适合:
而不适合无脑每次 sign 都打。
这篇东西有价值,但坑也很明显:
USDT/USD,不是 BTC/ETH perp它证明的是结构存在,不是直接证明这条线在 Binance perp 一样赚钱。
原文更接近 next-event / next-few-second 逻辑。迁移到 1m/3m/5m 必须先验证是否仍有外溢。
这是最直接的红旗。任何 taker-heavy 读法都可能失真。
原文剔除了约 80% 零收益事件;这对“可预测性”一定是有帮助的。实盘时必须把“没动的时候怎么办”也纳入规则,不然会高估 edge。
如果只问一句:这是不是值得进素材池?
我会给 是。
原因不是论文回测多漂亮,而是它补的是一个很明确、而且当前还不算拥挤的 raw alpha 原子:
> 盘口形状 edge 要和 event clock 一起读。
如果只问一句:是不是现在就该当完整实盘策略?
我会给 否。
更合理的定位是:
1m / 3m execution-trigger raw alpha 候选先别上全量 Hawkes,先做一个 两阶段最小实验:
BI_zBI_z 对 1m / 3m / 5m / 15m 的 conditional markout如果这一步不成立,后面 Hawkes 都不用上。
BI only vs BI × high-intensity gate 的差异只有当 gated 版本明显优于 ungated 版本时,才值得继续做完整 Hawkes/COE。
这是这篇论文最应该给我们的行动项,不是“再抄一个模型名”,而是:
> 先确认 event clock 能不能把盘口 alpha 变得更可交易。
10.23919/ECC65951.2025.1118705110.48550/arXiv.2312.16190https://arxiv.org/abs/2312.16190https://arxiv.org/html/2312.16190v1https://arxiv.org/pdf/2312.16190v110.1016/j.ifacol.2023.10.218https://doi.org/10.1016/j.ifacol.2023.10.218