← 返回 Quant Digests · 站点首页

别把分钟级预测只做成黑箱 ML:这篇 2021 论文更值得先复现的是「rolling LASSO 稀疏一分钟 raw alpha」

更新时间:2026-03-25 05:55 UTC 研究时间:2026-03-25 05:54 UTC 类型:2021 论文 + ScienceOpen 摘要页 + Binance Futures 公共 1m K 线最小快检 主题标签:raw-alpha/intraday/1m/3m/time-series/cross-sectional/lasso/sparse-signals/short-lived-predictors/taker-imbalance/vwap-gap/volume/binance/perpetual/paper 证据类型:论文证据 + 本地公共数据快检

源文件:research/quant_digests/2026-03-25_0554_intraday-sparse-lasso-next-minute-alpha.md

> 先回答 base alpha:不是 filter,不是“模型框架综述”。base alpha 就是“分钟级短寿命特征 → 下一分钟收益”的 directional raw alpha;LASSO 只是把可交易的那几根针从一大堆草里挑出来。

1. 这次看了什么

主线材料是:

这轮我不把它读成“又一个机器学习论文”,而是把它拎成更适合我们 desk 的读法:

分钟级、短持有、可直接阈值化交易的 sparse raw alpha。

这条线的关键价值不在于“LASSO 很学术”,而在于它给了一个非常实用的 research posture:

  1. 先把分钟级候选特征库铺开;
  2. 允许信号只在很短的局部窗口活着;
  3. 不追求单一永恒因子,而是接受“稀疏 + 短寿命 + 滚动重估”;
  4. 最后直接把预测值变成可交易的 next-bar alpha。

这和我们当前 desk 的目标是对齐的:

2. 核心结论

关键数据点(论文原文/摘要能直接确认的):

  1. 预测目标1-minute ahead 的样本外收益预测,不是日频,不是周频。
  2. 资产范围10 个主要加密货币,不是只测 BTC 单币。
  3. 方法论核心:在一大组线性 + 非线性 predictors 上做 LASSO 稀疏筛选,而且作者明确强调被选中的 predictors 是 sparse and quite short lived

关键数据点(我做的本地最小快检;公开 Binance UM Futures 1m K 线,2024-01-10 ~ 2024-01-24,训练 11 天 / 测试 4 天,仅作 proxy,不是 faithful replication):

  1. DOGEUSDT:LASSO 对下一分钟收益的测试集相关系数约 0.0573,略强于同特征全量线性回归的 0.0484;按训练集 p10/p90 阈值触发,long 平均约 +0.318 bps,short 平均约 +0.605 bps
  2. XRPUSDT:仍有弱正边,测试相关系数约 0.0107;说明这条线不是只在 memecoin 上成立,但边明显收缩。
  3. 横截面 top1-bottom1(BTC/ETH/SOL/XRP/DOGE/LTC 六币,每分钟按预测值做多最强、做空最弱,持有 1 分钟):全样本平均毛收益约 +0.015 bps/min;只做预测分差高于中位数的“更确信”一半分钟,平均毛收益约 +0.112 bps/min,命中率约 50.8%
  4. 异质性非常强:BTC 基本接近零,SOL 在该样本窗为负,LTC 甚至被 LASSO 直接稀疏到 0 个有效特征。这反而很重要:它说明这条 edge 更像 局部/状态依赖 alpha,而不是“全市场无差别一分钟圣杯”。

3. 为什么和当前项目直接相关

这条线和我们现在的短周期研发直接相关,原因有四个:

  1. 它是 raw alpha,不是 filter。
  2. 预测对象就是下一分钟收益本身。

  3. 它天然适配 1m / 3m
  4. 不需要硬把低频变量拉扯成高频;原论文就是分钟级。

  5. 它能同时服务单币和横截面。
  6. 单币可以做 sign/threshold 入场;横截面可以做 top-vs-bottom market-neutral。

  7. 它给了“研究流程模板”而不是只给一个指标。
  8. 对我们更值钱的是:以后新来的 flow / OI / VWAP / basis / liquidation 特征,也都能塞进同一套 sparse-screening 框架里做分钟级快检。

3.5 策略拆解(必填)

4. 对 desk 最有价值的,不是“预测强不强”,而是“怎么把它变成可持续 intake 模板”

如果只把这篇论文读成“LASSO 比 benchmark 强”,价值其实有限。

真正能被我们拿走的是这套框架:

A. 把分钟级 raw alpha 当成“短寿命稀疏信号”来研究

这很符合 crypto 的现实:

所以比起追求一条固定规则,更现实的是:

B. 它能作为新特征 intake 的统一骨架

后面不管我们往里加的是:

都可以先问同一个问题:

“把它塞进 rolling sparse model 以后,能不能在 next 1m / 3m return 上留下额外信息?”

如果答案是能,这个新特征就不是纯解释,而是真的进了 raw alpha 池。

C. 它更适合 alt bucket,而不是默认押在 BTC 上

这次本地 proxy 快检最有意思的一点,不是“平均有边”,而是:

这说明如果真做下一轮最小复现,优先级不该是 BTC first,而应该是:

5. 可复刻的最小实验(下一步怎么测)

研究假设rolling sparse feature selection 能在一部分 crypto perp 上形成可交易的 1m directional alpha,但收益高度依赖币种分层、阈值稀释和交易成本。

数据源与公开性

最小实验设计

  1. 标的分层
  1. 样本切法
  1. 特征库
  1. 持有期网格1m / 2m / 3m
  2. 阈值网格:按训练集预测分位数做 80 / 90 / 95 / 97.5 分位触发
  3. 成本阶梯

最先看 5 个指标

这条线最应该先做的 3 个实验

  1. bucket test:按 liquidity / trade-count / retail-beta 分组,看 sparse edge 是否显著集中在某一类币
  2. feature survival map:记录每个滚动窗里被选中的特征,判断哪些是真正“偶尔复活”的分钟级 edge
  3. time-series vs cross-sectional:同一组预测值,比较“单币阈值交易”和“横截面 top-bottom 配对”哪个更抗成本

6. 风险与保留意见

7. 一句话结论

这篇东西值得进研究池,不是因为“LASSO 很高级”,而是因为它把 1m crypto alpha 讲成了一个非常诚实的命题:信号是短寿命、稀疏、币种异质、需要滚动筛选的。对我们 desk 来说,这比再找一个固定阈值规则更有扩展性。

8. 来源

  1. Lalwani, V., & Meshram, V. (2021). _Predicting Intraday cryptocurrency returns – A Sparse Signals approach_. The Journal of Prediction Markets, 15(1).
  1. ScienceOpen article metadata / abstract page
  1. Binance Data Vision, UM Futures public 1m klines

9. 本地快检产物