源文件:research/quant_digests/2026-03-31_0941_lstm-ppo-omega-btc-alpha.md
long / short / hold 的离散持仓状态机这次看的是 Fengrui Liu, Yang Li, Baitong Li, Jiaxin Li, Huiyang Xie (2021) 的论文 _Bitcoin transaction strategy construction based on deep reinforcement learning_。如果只把它读成“又一篇用 RL 做 BTC 交易的论文”,那对当前 desk 价值很一般;但如果把它拆开看,它其实提供了一张现在素材池里还比较缺的卡:
> 不是只给一个 forecast,也不是只给一个 filter,而是把“单币方向预测”直接装进一个可执行的 inventory shell,连 reward、动作空间、交易成本、最小下单单位都写出来了。
这点和最近一批 digest 很不一样。最近我们积累得比较多的是:
而这篇论文的价值就在这里:它的 headline 是 PPO,但对 desk 更值得先偷的,不是“把 PPO 原封不动搬过来”,而是三件更朴素、也更容易转成 15m/5m/3m 实验的东西:
LSTM 最能抓住这个 drift,再让 PPO 把 forecast 映射成离散持仓动作,因此得到一个完整单币 raw alpha 策略。SVM / MLP / LSTM / TCN / Transformer,测试集最优 MSE 为:LSTM: 0.0015Transformer: 0.0044SVM: 0.0084TCN: 0.01327MLP: 0.0251对这篇论文来说,真正的 signal source 不是 PPO,而是“LSTM 确实比别的模型更能学到 next-step drift”。
Non-named strategy (i): 309.61%VMA oscillator: 302.12%Buy & Hold: 301.79%Golden Cross/Death Cross: 26.11%Improved Momentum: 8.17%$10,0000.25%2%0.125 BTC24 个离散动作(在 buy / sell / hold 三类上再离散仓位/数量)对 short-cycle desk 来说,这些参数未必能直接照搬,但它们非常宝贵,因为它们把论文从“模型预测”变成了“完整策略说明书”。
这轮任务默认优先补 可独立复现且能直接落地成完整策略的 raw alpha。这篇东西值得入池,原因不是它最“新”,而是它刚好补上当前池子里一块相对薄的区域:
base alpha 很清楚,就是 BTC 单币短窗 directional drift。
论文把动作空间、reward、手续费、最小交易单位都写了,能直接拆成 entry/exit/sizing/risk/cost。
虽然原文是 hourly,但结构是 bar-based 的,且 state window 只有 10 个 time steps;把同样骨架压到 15m/5m 非常自然。
当前对 desk 更值钱的,未必是复现一遍 PPO 本身,而是问: > 把 directional forecast 装进“inventory shell + Omega reward”之后,是否比“预测值直接变信号”更稳?
这就是它比继续写一篇泛泛 filter 更值得本轮 digest 的原因:它扩的是可部署的 raw alpha 素材池。
long / short / flat directional strategynext-bar directional driftPPO + Omega ratio reward 本身就在做 risk-aware action selection;我不建议第一步就说“去复现 PPO agent”。对 desk,更值得先偷的是下面这个拆法:
它可以拆成三层:
10 个 bars 的价格路径(论文先做差分,再归一化);SVM / MLP / LSTM / TCN / Transformer 里,LSTM 最适合作 forecast prior。y_hat > 0 就 long, y_hat < 0 就 short;对 desk 来说,最重要的 insight 是:
> 如果 raw alpha 本体是可学的 directional drift,那么真正决定它能不能活过成本的,往往不是 forecast 模型本身,而是你用什么库存壳子和 reward 去包它。
这篇论文恰好把这层讲得比较完整。
第一轮不要直接复现完整 PPO。那样会把问题搞得太黑箱,很难知道 edge 到底来自:
先做一个 三段式 ablation:
#### A. Forecast-only baseline
BTCUSDT perp15m,再下钻 5m10 根 bar returns / OHLCV1h, 4h, 1d)LSTM-smallLightGBM / logistic sign model 当非深度学习基线y_hat > +th -> long,y_hat < -th -> short,否则 flat#### B. Forecast + inventory shell
{-1,0,+1} 扩成离散仓位档位,例如:{-1, -0.5, 0, +0.5, +1}#### C. Forecast + inventory shell + Omega-like reward
rolling downside-penalized rewardOmega / Sortino proxy reward论文的核心可迁移设定:
10 bars70% train / 10% valid / 20% test0.25% per-trade fee2% max slippage0.125 BTCdesk 版第一轮建议改成:
4 / 8 / 12 / 20 bps round-trip0, ±0.5, ±1第一轮别盯年化收益,先盯这 6 个:
如果实验发现:
A 就已经有 edge,说明 base alpha 本体不错;B 明显好于 A,说明 inventory shell 值钱;C 再明显好于 B,说明 Omega-like reward 不是噱头。这就是这篇论文最适合 desk 的读法:不是复现 PPO,而是拆出“哪一层真的值钱”。
所以这篇东西最合理的定位不是“直接证明 1m 可做”,而是提供一个 可压缩到 15m/5m 的完整策略骨架。
0.25% fee + 2% slippage 更像 stress shell,而不是今天主流大所 BTC perp 的真实撮合成本。这意味着它更像一个纯价格型 directional shell,后续是可以叠加 desk 现有 microstructure 因子的。
但只要 base alpha 仍然是 directional drift,这条线依旧属于 raw alpha 的完整落地形式,而不是纯 filter。
所以对当前 desk,我会把这条线定位成:
> 先作为 15m 单币 directional raw alpha + inventory-shell 实验卡,若存活,再向 5m 下钻;不是从一开始就把它包装成 1m HFT。
BTCUSDT 15m 的三段式 ablation:forecast-only / +inventory shell / +Omega-like reward。15m 成本后存活,再下钻 5m;若 15m 不活,就不要把它硬吹成更快频 alpha。