源文件:research/quant_digests/2026-04-02_0117_binance-polymarket-lagged-binary-mispricing-alpha.md
README.md + TRAINING_JOURNAL.md + run.py + strategies/base.py + helpers/polymarket_api.py + helpers/binance_futures.py + GitHub API metadata + 公共 API live snapshot)fast-market fair value - slow-market quoted probability 的滞后错价。这轮看的是一个 2025-12-29 创建、2026-03-31 仍有高信号活跃度、GitHub 约 366 stars 的新仓库:humanplane/cross-market-state-fusion。
repo headline 写的是 RL agent fusing real-time Binance futures data into Polymarket prediction markets,但对我们 desk 来说,最值得 intake 的不是“PPO + MLX + 苹果芯片在线训练”这层外壳,而是它已经把一条 可独立复现、数据公开可拿、天然对应 15m 持有期 的 raw alpha 骨架摆出来了:
1m/5m/10m return、trade_flow_imbalance、CVD、large trade flag、realized vol;翻成人话: 别先学它怎么训 RL;先测 Binance 先动 → Polymarket 15m up/down 概率滞后调整 这条跨市场错价能不能独立赚钱。
这轮的 base alpha 很清楚:
更具体地说: 用 Binance futures 的超短价格 / order-flow 冲击去估一个“当前 15m 结算事件的公平上行概率”,然后和 Polymarket 的 UP token 中价比较;若 fair probability 显著高于当前 quoted probability,就买 UP,反之买 DOWN。
所以这轮应被定性为:
raw alphacross-market / relative-value / lead-lag最近池子里已经有不少 BTC→ALT、ETF→BTC、CEX→DEX、spot→futures 的 lead-lag / relative-value 材料;这轮还值得写,有三个原因:
gamma-api.polymarket.com + wss://ws-subscriptions-clob.polymarket.com/ws/market 就能抓 active markets 和 L2 订单簿,不用私有数据。如果要一句话概括这轮为什么比继续补一个 shared gate 更值钱: 因为它本身就是一条能单独下单、能明确定义成本与 timeout 的 raw alpha,而不是只给现有策略再加一个 veto。
README / TRAINING_JOURNAL 里给了几组很醒目的数字:
$3,392 PnL,对应 170% ROI~$50K PnL,2,500% ROI10+ hours34,73023.3%+$40,088这些数字明显不能直接当 live edge,相反更该当 warning:
但这些结果仍然提供了一个有用信号: 即使 win rate 只有 23%,只要 binary 份额定价的不对称 + 慢腿报价滞后是真实的,低胜率也可以赚钱。
repo 没有含糊其辞,它把 state 直接写成 18 维:
returns_1m, returns_5m, returns_10mtrade_flow_imbalance, cvd_accelbest_bid, best_ask, spread, order_book_imbalance_l1/l5trade_intensity, large_trade_flagvol_regime, trend_regime, time_remaining这对我们很关键,因为它说明第一轮根本不需要 PPO: 先做一个 lagged fair-probability baseline(logit / isotonic / ridge / simple rules)就能 honest 地回答“slow-market mispricing 到底存不存在”。
我直接用 repo helper 做了 live snapshot,当前时刻就能抓到 4 个 active 15m crypto markets:
UP 0.545 / DOWN 0.455UP 0.495 / DOWN 0.505UP 0.540 / DOWN 0.460UP 0.550 / DOWN 0.450并且同一时刻 Binance futures 公开接口能同步给出 ultra-short returns,例如:
ret_1m = +0.0231%,ret_5m = -0.4712%ret_1m = +0.2620%,ret_10m = +0.4964%ret_5m = -0.8626%这不代表“单点 snapshot 已经证明有 edge”,但它证明了更重要的一件事: 数据接线今天就是通的,第一版最小实验不需要等私有 feed。
repo 原始做法是 PPO agent;但更适合我们 desk 的 side branch 其实是:
p_fair_up;p_mid_up 比较;edge = p_fair_up - p_mid_up 足够大的时点;所以最实用的简化版可以直接写成:
score_t = w1*z(ret_1m) + w2*z(ret_5m) + w3*trade_flow_imbalance + w4*z(cvd_accel) + w5*large_trade_flag*sign(trade_flow)score_t 映射成 p_fair_upp_fair_up - p_mid_up > entry_edge,买 UPp_fair_up - p_mid_up < -entry_edge,买 DOWNexit_edge30~60s|edge|、spread、time remaining、盘口厚度,从 0.25x / 0.5x / 1.0x 分层2s 不开仓2~3c 不追这就已经是一条完整策略,不再依赖“RL 学出来什么”这个黑箱前提。
edge 分层仓位、单 market 单次开仓、临近到期强制平仓、maker/taker fallback、depth-aware size cap1m / 3m / 5m / 15m 的关系15m 主信号,1m/3m/5m 做快腿特征与执行这条线的结算对象本身就是 15m binary,所以最自然的映射不是把它硬压成 1m 高频主 alpha,而是:
15m:交易对象 / 持有期 / timeout clock5m:快腿 return / flow 聚合与状态刷新3m / 1m:更快的 impulse 捕捉、edge persistence 检验与 child-order timing换句话说: 这里的 1m/3m 不是另起一套 alpha,而是给 15m main trade 提供更及时的 fair-value 更新。
即使最后不做 Polymarket 实盘,这条材料仍有 desk 价值,因为它等价于在问: “当一个慢市场价格载体吸收同资产信息更慢时,快腿冲击能否被转写成可执行的概率错价?”
这层读法可迁移到:
所以它补的不只是一个特定 venue idea,也是一种 probability-marketized lead-lag 壳子。
book / price_change / best bid/ask / depth100ms 聚合成交openInterest、premiumIndex、1m klines10s 刷新1m bar第一轮不要做 RL,也不要做 full online learning;先做一版最小 honest backtest:
2~4 周的 Polymarket 15m crypto markets + Binance futures 同步数据UP/DOWN binary outcome,或更保守地用中途 probability reversion / convergence 做 first-stage labelret_1m, ret_5m, ret_10m, trade_flow_imbalance, cvd_accel, large_trade_flag, spread, ob_imbalance, time_remaininglogit / ridge / isotonic / threshold rule 开始Binance features -> fair probability,直接检验 quoted-probability mispricing 是否存在。p_fair_up - p_mid_up 分位越极端,最终到期正确率 / 中途收敛收益是否单调上升。>10m、5~10m、<5m 三个 time-to-expiry bucket,确认 edge 是不是只活在 early / mid window。edge/spread ratio 是否够厚。所以我对它的定位是: 高信号 repo intake,base alpha 很清楚;但 first verdict 必须靠非 RL、cost-first、lagged execution 的最小实验来给。
humanplane这份 2026 repo 最值钱的不是“RL 在 prediction markets 上赚了多少钱”,而是它把一条可公开取数、天然对应 15m、可直接写成 entry/exit/sizing/risk/cost 的 raw alpha 摆在桌上:Binance fast impulse -> Polymarket slow probability catch-up。对 desk,第一步该复现的是这条错价,不是 PPO。