源文件:research/quant_digests/2026-04-14_0006_smallflow-nolargeconfirm-fade-alpha.md
aggTrades size-bucket portability probe1m~5m 更适合反打;若大小单同向共振,至少在当前 public-data 代理口径下,并没有给出干净 continuation。这轮主线不是继续做 CVD / OFI 的老读法,而是补一条更接近“交易对手拆解”的 microstructure raw alpha。
主参考材料有两篇:
10.2139/ssrn.505129110.2139/ssrn.5974914要先说明清楚:这轮并没有直接读到 SSRN 全文 PDF,因为 SSRN 反爬挡住了正文抓取;所以我不假装看过没看到的表格数字。真正用来定题的,是:
aggTrades 做一个可独立复现的 trade-size proxy 最小实验,回答更适合我们 desk 的问题:> 如果把“小单主动流”当成 retail-like proxy,把“大单主动流”当成更强确认流,真正值得先测的,是 continuation 还是 divergence fade?
一句话先定性:
> 更值钱的不是“订单流有信息”这句空话,而是 small-size taker surge × no-large-flow confirmation -> short-horizon fade 这条 raw alpha。
BTC/ETH/SOL 最近 10 天 aggTrades,按日内成交额中位数 / 90 分位把逐笔成交粗分成 small / mid / large 三桶;再对每分钟主动买卖金额做 rolling z-score。结果:divergence_fade(小单极端单边、大单未确认)共有 1315 个事件,后 5m 平均 +0.646 bps、中位 +0.935 bps、胜率 51.6%;confirmed_cont(大小单同向)共有 3344 个事件,后 5m 平均 -0.444 bps、后 15m 平均 -0.504 bps,first-pass 反而更差。最关键的不是绝对数有多大,而是方向判别已经分出来了:
> 在当前代理口径下,divergence 比 confirmation 更像 alpha,本体偏 mean reversion,不偏 continuation。
它补的是一个当前池子里还不够密的缺口:
对 short-cycle desk,这个问题很值钱,因为很多分钟级假突破 / 假延续,本质上不是“没有成交”,而是:
> 只有小单在追,真正更有信息量的大单没有继续抬轿。
这就让它和已有 OFI 线不完全重复:
1m/3m/5m 的 microstructure mean reversion 素材池。aggTrades 最小实验BTCUSDT, ETHUSDT, SOLUSDTaggTrades 压缩包price, quantity, transact_time, is_buyer_makeris_buyer_maker = False 视作主动买is_buyer_maker = True 视作主动卖notional = price * quantitysmall:<= 当日中位数large:>= 当日 90 分位midsigned_notional 求和,形成 flow_small / flow_large240 分钟 rolling z-score这里一定要诚实:
> small ≠ 真 retail,large ≠ 真机构。
这只是一个公开数据可复现的 proxy;但对 desk 来说,重要的是它能先回答:trade-size decomposition 到底有没有可交易形状。
我先只测两条最朴素的分支:
flow_small_z >= 1.5 且 flow_large_z <= 0 → shortflow_small_z <= -1.5 且 flow_large_z >= 0 → longflow_large_z >= 1.0 且 flow_small_z >= 0 → longflow_large_z <= -1.0 且 flow_small_z <= 0 → short本地结果已写入:
/root/clawd/jerry/momentum/reports/artifacts/quant_digest_live/smallflow_nolargeconfirm_fade_20260414.jsondivergence_fade 的聚合结果:
5m:15m:翻成人话:
> 这条 edge 不是“拿住就会赚更多”的趋势信号,而更像 1~5 分钟里的短促回吐。
所以如果真要 desk 化,它的默认落点不是 15m hold,而是:
1m/3m 触发;3m/5m time-box 出场;15m 更适合拿来当“别硬抱”的反证窗口。按 5m 看,divergence_fade 分币结果:
143 个事件,平均 +1.124 bps,胜率 59.4%295 个事件,平均 +0.977 bps,胜率 52.2%877 个事件,平均 +0.457 bps,胜率 50.1%这说明:
confirmed_cont 的结果更重要,因为它帮我们排除了一个很常见、但容易想当然的读法:
5m 平均:-0.444 bps15m 平均:-0.504 bps5m 都没给出正值:所以这轮最重要的研究结论之一,不是“某个信号赚多少”,而是:
> 别先入为主地把 large flow confirmation 当 continuation alpha;至少在这个公开 proxy 里,真正更值得先测的是“未被大单确认的小单冲动”会不会回吐。
这条线的 base alpha 很清楚:
> retail-like one-sided push 在没有大单确认时,更容易短时回吐。
所以它不是 filter,不是 regime 说明书;它本身就是一条单资产、microstructure、短窗均值回归 raw alpha。
原因也很清楚:
5m 的 gross edge 仍很薄;1m/3m、session、spread、funding/OI crowding、maker fill quality 全部分层跑完。所以这一轮最诚实的定性是:
> 它已经够格进入 raw alpha 素材池,但暂时还不该被写成 production-ready 完整壳。
如果继续做,不建议上来就:
更像样的第一版应该是:
BTC/ETH;small-flow z 更极端的事件;3m time-stop,5m 最多容忍;funding/OI/liquidation crowding、异常大波动分钟、宽点差、session 交接时段、单边趋势已明显扩散时不做3m 默认 time-stop、5m 最长容忍、maker-first、连续亏损 cooldown、每分钟成交次数上限这条线比继续补一个“泛解释型 order flow 综述”更值得,因为它满足当前优先级:
1m/3m/5m/15m 的最小实验;更具体地说:
+0.646 bps / 5m 这种量级,不足以支持盲目 taker。1m/3m/5m/15m 完整 horizon sweep。 当前最重要的问题不是再调阈值,而是确认 edge 究竟活多久。0 / 2 / 4 / 6 / 8 bps 单边或 round-trip 口径,别只看 gross。BTC/ETH 专项 refine。 把 small-flow z 阈值改成 1.5 / 2.0 / 2.5,看看 edge 是否随极端度上升而单调增强。DOI: 10.2139/ssrn.5051291 Readable URL: <https://doi.org/10.2139/ssrn.5051291> Metadata URL: <https://api.openalex.org/works?filter=doi:10.2139/ssrn.5051291>
DOI: 10.2139/ssrn.5974914 Readable URL: <https://doi.org/10.2139/ssrn.5974914> Metadata URL: <https://api.crossref.org/works/10.2139/ssrn.5974914>
URL pattern: <https://data.binance.vision/data/futures/um/daily/aggTrades/BTCUSDT/BTCUSDT-aggTrades-2026-04-12.zip> 公开性:公开可下载 更新频率:日更归档 最小可复现实验口径:逐笔成交字段 price / quantity / transact_time / is_buyer_maker,按 trade notional 分桶后聚合到 1m 做 signed flow z-score