← 返回 Quant Digests · 站点首页

别把这篇 2025 Informer 论文只读成“Transformer 打败 MACD”:对 desk 更该先测的是「direction-aware loss × thresholded long/short state machine」BTC 单币 raw alpha

更新时间:2026-03-29 23:26 UTC 研究时间:2026-03-29 23:25 UTC 类型:2025 arXiv 全文 PDF + 本地全文抽取 + 公开 GitLab 复现框架审阅 主题标签:raw-alpha/single-asset/directional/next-bar/threshold-state-machine/direction-aware-loss/gmadl/informer/btc/binance/5m/15m/30m/1m/3m/paper/repo/public-data/cost 证据类型:全文规则 + 表格级结果 + 公开代码仓库

源文件:research/quant_digests/2026-03-29_2325_gmadl-directional-threshold-btc-alpha.md

1. 这次看了什么

这次看的是 Filip Stefaniuk, Robert Ślepaczuk (2025) 的 arXiv 论文 _Informer In Algorithmic Investment Strategies on High Frequency Bitcoin Data_,以及作者公开的 GitLab 复现仓库。论文研究对象很集中:

如果只把它读成“Informer 比传统指标强”,价值其实一般;但对当前 desk 真正值钱的是,它把一条 可直接写成 entry / exit / cost / 评估框架 的短窗 directional alpha 讲清楚了,而且还给出一个很重要的 desk 启发:

> 在高频/更短 bar 上,问题不只是模型好不好,而是 loss function 有没有把“方向”和“大波动尾部样本”学对。

换句话说,这篇东西更像一张 direction-aware loss / abstain threshold / 高频成本生存 的实验卡,而不是一篇“再上更大模型”的论文。

2. 核心结论

3. 为什么和当前项目有关

这轮应该优先补 可独立复现的 raw alpha,而不是再补一层解释型 filter。这篇东西值得进素材池,原因有四个:

  1. 频率非常贴 desk。 它不是日频论文硬往分钟上套,而是直接在 5m / 15m / 30m 上做;
  2. base alpha 清楚。 它不是“端到端黑箱配收益曲线”,而是很明确的 next-bar return forecast -> thresholded state machine
  3. 完整策略口径齐。 论文明确写了持仓状态、手续费、滚动样本拆分、阈值网格、交易次数、long/short 占比;
  4. 最值得偷的分支不是 Informer,而是 loss + gate。 这意味着我们不必第一步就复现 Transformer,也能先做一个 desk 版最小实验。

更直接地说,这篇东西给 desk 的不是“用 Informer 才能赚钱”,而是:

> 短周期 directional alpha 要想穿过成本,核心也许不是把模型做得更复杂,而是让训练目标和交易目标一致:方向对、尾部样本对、没把所有预测都缩成 0。

3.5 策略拆解(必填)

4. 论文里真正值得 desk 先偷哪一段

我不建议第一步就全量复现 Informer。对当前 desk,最应该先偷的是下面这个更小、更诚实的分支:

direction-aware loss × thresholded state machine

也就是:

  1. 用近端价格路径与少量状态变量预测下一 bar return;
  2. 但训练目标不要只最小化 MSE/RMSE,而要更强调 方向正确性 + 大振幅样本
  3. 交易时不连续调仓,而是通过阈值把预测映射成 long / short / flat
  4. 只在预测足够大、扣成本后还有边时出手。

这比“复现 Informer 架构细节”更适合 desk 的原因是:

5. 可复刻的最小实验

5.1 先复现什么

先不要上全套 Informer。先做一个 两模型对照 + 同一状态机 的最小实验:

  1. baseline:线性 / LightGBM / 小型 MLP + MSE
  2. direction-aware:同样特征、同样架构,但把 loss 改成 强调方向与大振幅样本 的 GMADL-like 目标

5.2 特征先怎么抄

第一版不需要花哨,直接抄论文里最能迁移的一组:

这里最重要的是:保持特征集不变,先只改 loss。 这样才能把“方向型 loss 是否真能救高频 edge”单独测出来。

5.3 entry / exit

直接沿用论文的状态机思路:

论文阈值网格就是很好的起点:

也就是 roughly 10~70 bps 的预测收益门槛。这个口径对 5m/15m 很重要,因为它天然在问:模型给出的边,够不够覆盖 frictions?

5.4 sizing / risk / cost

论文是满仓,但 desk 第一轮更稳的做法:

5.5 最先看什么

先盯四个问题:

  1. direction-aware loss 是否真的比 MSE 在 5m/15m 更能留住非零预测?
  2. 预测值分布有没有从“全缩在 0 附近”变成“尾部更厚、可过成本门槛”?
  3. 同样阈值下,交易次数、hit rate、avg trade、holding time 怎么变?
  4. 若方向型 loss 的优势只出现在高 friction 前,那它不是 alpha;若在保守 friction 后还活,那才值得往下钻 3m/1m

6. 风险与边界

7. 来源

  1. Stefaniuk, Filip; Ślepaczuk, Robert (2025), _Informer In Algorithmic Investment Strategies on High Frequency Bitcoin Data_
  1. Michańków et al. (2024), GMADL loss related reference cited by the paper
  1. Zhou et al. (2021), _Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting_
  1. Supplementary implementation repo cited by the paper

8. 下一步怎么测

  1. 先不复现全套 Informer,先复现同一状态机下的 MSE vs direction-aware loss 对照。
  2. 第一轮只做 BTCUSDT 15m;若成本后还活,再做 5m3m/1m 放到最后。
  3. 先固定特征集,只改 loss;再固定 loss,只改阈值网格,避免把“模型差异”和“admission 差异”混成一团。
  4. direction-aware loss 主要把预测分布尾部拉开、并显著改善成本后 avg trade,这条线就值得继续;反之就把结论写死:真正值钱的是 threshold abstain,不是复杂模型。
  5. 如果 15m 存活而 5m 崩掉,别硬追更快频;直接把它定位成 15m 主 directional alpha + 5m execution timing`,而不是伪装成 1m 高频 edge。