← 返回 Quant Digests · 站点首页

别把这份 2026 research engine 只读成 ML 大拼盘:对 short-cycle desk,更该先拆的是「5m 特征 → beta-neutral 1h cross-sectional ranker」这条 raw alpha

更新时间:2026-04-04 12:27 UTC 研究时间:2026-04-04 12:26 UTC 类型:2026 GitHub 新 repo source audit(`README.md` + `azalyst_v6_engine.py` + `azalyst_factors_v2.py` + `azalyst_train.py` + `azalyst_validator.py`) 主题标签:raw-alpha/cross-sectional/relative-value/stat-arb/beta-neutral/return-ranking/elastic-net/mean-reversion/momentum/regime-gate/top-bottom/binance/5m/15m/3m/1m/repo/public-data/cost/risk 证据类型:repo 源码证据

源文件:research/quant_digests/2026-04-04_1226_azalyst-betaneutral-1h-xs-ranker-alpha.md

1. 先回答一句:base alpha 是什么?

base alpha = 在 crypto 截面里,去预测“谁会在未来 1h 跑赢同一时点的市场平均”,然后做 top/bottom 排名交易。

这不是 filter,也不是 overlay。 它本体就是一条 cross-sectional / relative-value raw alpha

所以这条思路对我们 desk 的价值,不在“它用了 Elastic Net / XGBoost”,而在于它把 short-horizon relative outperformance 明确写成了可训练、可排序、可交易的目标。

2. 一句话核心结论

这份仓库真正值得 intake 的,不是它那层很重的 weekly ML 外壳,而是里面那条可独立抽出来的 raw alpha:5m 因子 → 1h beta-neutral 相对收益排序 → top/bottom 组合。

换句话说:

这一步对 1m/3m/5m/15m short-cycle desk 很有用,因为它天然更适合:

3. 它是怎么证明这件事的?

repo 的证据链,至少在工程定义上是完整的:

  1. 数据层3+ 年、444 个 Binance 交易对、5m OHLCV、26M+ 行;
  2. 目标层:预测 125m bar(即 1h)后的 forward return,但先减去同日截面均值,形成 beta-neutral target;
  3. 训练层26 周 rolling 窗口、13 周重训、Purged K-Fold、并对 1h 目标做 12 bar 非重叠抽样,尽量减少 label overlap;
  4. 组合层:默认 top-5 longs + bottom-5 shorts,equal-weight,round-trip fee 直接写成 0.2%
  5. 否证层:不是只跑 ML,而是先拿 ret_1w / ret_3d / vol_regime / composite baseline 去打 falsification campaign,要求 ML 至少要打赢简单排序基线才算有存在价值。

这套证据还不是独立验证后的 alpha 成立证明,但已经足够说明: > 作者并不是在写一个“花哨预测器”,而是在认真定义一条 可交易的截面 raw alpha

4. 对 short-cycle desk,真正该抄的是哪一层?

4.1 值得抄的层

最值得拿走的是下面这个最小骨架:

这比“单币做多/做空预测”更像我们当前素材池里缺的那类东西: cross-sectional relative-value raw alpha

4.2 不该照单全收的层

repo 当前的执行外壳,反而是我最不想直接照抄的部分:

所以对我们 desk,更合理的读法不是“把它整套 weekly engine 搬过来”,而是:

> 把 repo 的 base alpha 抽出来,换掉它的 weekly shell,改成 15m rebalance / 1h hold 或 5m staggered hold 的 short-cycle 版本。

5. 为什么这轮值得优先于继续补单币结构型 raw alpha?

因为这条材料直接补的是我们现在仍然稀缺的一层:

而且它还有两个很实际的价值:

  1. 给我们一个“如何把市场方向剥掉”的干净定义
  2. 不是先做多空择时,再想办法对冲;而是一开始就把 target 定义成相对收益。

  1. 给我们一个“先证明简单基线,再谈 ML”的研发顺序
  2. 这跟当前 learning track 很契合。我们不用现在就上重 ML,先测:

6. 这条策略的完整策略部件是否齐全?

结论:齐全,但要把 holding clock 从 weekly 改回 short-cycle。

6.1 Entry(入场)

repo 的本质入场并不复杂:

6.2 Exit(出场)

repo 原生是周度 close-to-close 壳。 对我们 desk,更合适的 exit 改写是:

6.3 Sizing / Risk

repo 已经给出两层有用模板:

这两层都能直接迁移到我们后续 15m/5m 实验。

6.4 Cost

repo 直接把 round-trip fee 写成 20 bps。 对我们 desk,第一轮更该跑 friction ladder:

因为 cross-sectional ranker 很容易在 gross 上看着像样,但被 turnover 吃掉。

7. 下一步怎么测(直接可排实验)

实验 A:先别上 ML,先跑 simple rank baselines

在 liquid universe(先 20~30 个主流 perp/spot)上,用公开 5m 数据做:

看:

实验 B:把 weekly shell 改成 short-cycle shell

固定同一组特征,不急着换模型,只改执行钟:

目标:先回答 alpha 本体有没有短周期可移植性,而不是先追最优 Sharpe。

实验 C:long-only bull gate 是否真的必要

对同一横截面 ranker,分三档比较:

看它到底是:

实验 D:feature truth table,而不是全量 72 因子

优先只看这 10 个 stable features 的 sign / rank 是否稳定:

8. 风险与保留意见

  1. raw alpha target 定义;
  2. simple rank baseline;
  3. regime gate 是否增益;
  4. 只有在简单 baseline 成立后,才考虑 Elastic Net。

9. 来源

  1. Azalyst / gitdhirajsv (2026). _Azalyst Alpha Research Engine_. GitHub Repository.
  1. Repo source files used in this digest
  1. López de Prado, M. (2018). _Advances in Financial Machine Learning_. Wiley.
  1. Kyle, A. S. (1985). _Continuous Auctions and Insider Trading_. Econometrica.
  1. Amihud, Y. (2002). _Illiquidity and stock returns: cross-section and time-series effects_. Journal of Financial Markets.