源文件:research/quant_digests/2026-04-11_1658_semantic-equivalent-crossplatform-prediction-arb-alpha.md
买便宜 YES + 买另一边便宜 NO 的条件套利;当执行后 bundle 成本在费用后仍显著低于 1.00 时,持有到 resolution 或 recross。这轮 base alpha 很清楚,不是“prediction market 生态很碎”,也不是“LLM 能做语义匹配”。
真正能进 desk 素材池的,是一条很直接的 cross-platform relative-value / stat-arb raw alpha:
> 如果两个平台上写法不同、但结算语义等价的市场,其 YES@A + NO@B 或 YES@B + NO@A 这组 bundle,在扣掉 bid-ask / fee / gas / slippage 后仍明显低于 1.00,那就是一笔可以锁到 resolution 的条件套利。
翻成人话: 不是赌事件方向,而是赌“同一件事不该在两个平台上长期报出不同概率”。
所以它不是:
它本身就是一条可以单独建簿、单独记账、单独做风控的 raw alpha。
---
原因有 5 个:
entry、cost、持有逻辑、收益兑现方式都能写清楚。
之前更多是:
这篇更底层:先解决“哪些市场其实是同一件事”,再做跨平台套利。
这套“语义等价 -> 价差监控 -> bundle parity”框架,本质上是一个 event-driven RV scanner,以后也能迁移到:
Polymarket Gamma API、Kalshi public trade API 都能直接抓到 live event / market metadata,第一轮最小实验不需要私有库。
不是“可能存在错价”,而是直接报告:高流动性场景下中位 execution-aware 偏离仍有 2%~4%,朴素策略 800 天 15 笔交易累计收益 1218.66%。
---
cs.CE)10.48550/arXiv.2601.01706/root/clawd/jerry/momentum/reports/artifacts/literature/prediction_market_semantic_alignment_probe_2026-04-11.json/root/clawd/jerry/momentum/reports/artifacts/literature/prediction_market_semantic_alignment_probe_2026-04-11.csv---
论文不是简单说“Polymarket 和 Kalshi 有时不一样”,而是先把跨平台 market relation 分成三类:
对交易最重要的不是这个分类本身,而是:
> 一旦 relation 被确定,就能写出明确 bundle,去问“这组东西是不是买得太便宜了”。
也就是把“语义问题”直接变成 可交易的 parity 问题。
---
对 equivalent pair,论文给的核心 no-arbitrage 条件是:
> 1 - Δ <= min( YES_A + NO_B , YES_B + NO_A ) <= 1 + Δ
其中 Δ 是两边执行成本之和。
如果:
YES_A + NO_B + cost < 1那你就:
到期必有一边兑付 1,另一边归零; 只要入场总成本小于 1,就是锁利润。
翻成人话: 不是猜谁赢,而是凑出一张“无论谁赢都值 1 块钱”的组合,但你现在只花了不到 1 块。
这就是它的 raw alpha 本体。
---
论文覆盖 2018~2025、10 个 major prediction-market venues、102,275 个 events,然后给出几组非常硬的数据:
6% 的 event 至少和另一个平台存在一条 semantic relation;10% 的 total event-days;对 desk 的意义: 不是所有 event 都值得扫,但值得扫的那部分,往往恰好是更液、更久、更能容纳资金的那部分。
论文识别出:
1,501 个 equivalence classes / 6,709 条 equivalence relations1,645 组 subset-related sets / 6,421 条 subset relations1,123 个 negative-risk constructions / 2,771 个 markets这很重要,因为它说明这不是单一“Kalshi vs Polymarket 同一题”的小花样, 而是一个 完整 family:
可以先从 exact-equivalent 做第一阶段,再逐步扩到 subset / partition。
2%~4%论文在结果部分明确写到:
> 即使在最 liquid 的 constructions 里,价格通常仍会离 execution-adjusted parity 2%~4%。
这不是“偶尔跳一下”。 而是说明:
> 就算你已经把 fees / spreads / execution frictions 算进去,很多语义等价 market 依然没被拉平。
对交易含义很直接: 这条 alpha 不是必须做极速撮合的纯 HFT 级别,更多像是 structural dislocation book。
作者做了一个非常保守的 mechanical simulation:
结果:
800 天15 笔 completed trades1218.66%这不代表可以直接照搬上线, 但至少说明: paper 里的 edge 不只是统计显著,而是有真钱簿记含义。
---
因为它的交易闭环本身已经成立:
YES_A + NO_B 或 YES_B + NO_A)1这已经不是“给别的 alpha 加一层 gate”, 而是一条可以自己独立成书的 relative-value raw alpha。
---
本轮我没去伪装成“已经拿到 paper 原始对齐数据”,而是先做了一轮 公开接口最小可复现实验口径检查。
probe 结果里,四个入口都返回 200:
这意味着第一轮最小系统完全可以不依赖私有权限,先做:
probe CSV 里最明显的几组当前 family:
democratic-presidential-nominee-2028KXPRESNOMD-282028 democratic nominee presidential / 1.0presidential-election-winner-2028KXPRESPERSON-281.0republican-presidential-nominee-2028KXPRESNOMR-281.0这说明: 语义重复不是历史资料里才有,当前 live universe 里就能捞到。
例如 Democratic Presidential Nominee 2028 这个 live family:
46.37M6.15M其内部单候选 market(本轮抓到的 sample)例如:
last 0.275 / bid 0.274 / ask 0.275last 0.088 / bid 0.087 / ask 0.089last 0.022 / bid 0.021 / ask 0.023这至少说明两件事:
Kalshi 这次公开 market list 能拿到 event/market identifiers,但 sample quote 字段没稳定返回; 所以第一轮工程上更现实的做法不是假装“一步到位跨平台实盘”,而是:
> 先用公开 event universe + Polymarket side 全量 quote 做 semantic-matching scanner,Kalshi 作为第二腿的 market-availability & contract-definition source,再补 quote 采集器。
也就是说: 数据口是通的,只是 quote completeness 需要第二步单独补。
---
这轮必须明确说清楚,不然容易看起来像重复:
> 先解决“两个平台上哪两个市场其实是同一件事”,再去做 parity / subset / negative-risk。
所以它不是已有策略的一个小调参, 而是一个 上游 alpha factory:
它甚至可以反过来给我们现有的 prediction-market research pipeline 做候选生成器。
---
1m / 3m / 5m / 15m 怎么映射这里要说老实话:
它不是那种“下一根 5m K 线涨跌”的 directional alpha。
它更像:
1m / 3m / 5m / 15m也就是说,1m/3m/5m/15m 在这里代表的是:
1m适合:
3m / 5m适合:
15m适合:
翻成人话: 这条 alpha 的“短周期”不是 holding horizon,而是 monitor horizon。
---
这轮最重要的不是再写一遍论文摘要,而是把第一轮实验口径钉死。
title + endDate + resolution text + category 做第一层粗匹配;bundle1 = yes_A_ask + no_B_ask + feesbundle2 = yes_B_ask + no_A_ask + feesmin(bundle1, bundle2) <= 1 - h,记为 executable candidate。5m1m---
例子就是论文里那种:
共和党赢 2028 大选?JD Vance 赢 2028 大选?如果:
YES(superset) + NO(subset) + fees < 1那就是 deterministic coverage。
这条线的好处是: 不要求两个市场一模一样,只要逻辑包含关系清楚就能做。
但它更容易踩 resolution 细节坑, 所以应该排在 exact-equivalent 之后。
---
比如同一个多 outcome 事件:
把它们拼成完整 partition,检查:
sum(YES_i + fees_i) < 1这条线利润最“像白送钱”, 但工程复杂度也最高, 因为你要确保:
所以第三步再做,不适合当第一枪。
---
论文里专门举了 weather station 的例子:文本像一样,但观测源不同,最后不是同一 claim。
尤其 election / macro / sports 的“官方确认”定义可能不同。
一定要用 best ask / best available bundle,而不是看中间价自嗨。
paper 里高 APY 往往和剩余期限短有关;别被名义 APY 迷惑。
这类策略不是纯 price series backtest,账户层 friction 是真实 alpha tax。
标题是候选生成器,不是最终真相;resolution rule 必须入白名单。
---
因为它满足当前优先级里最稀缺的一类:
因为还缺 3 个东西:
所以我的结论不是“现在就能一键跑”,而是:
> 它已经够格作为完整 raw alpha 候选进入第一梯队,但应先做 exact-equivalent scanner + executable bundle replay,不要一上来就做全自动跨平台真仓。
---
从本轮 probe 里先挑:
Democratic Presidential Nominee 2028Republican Presidential Nominee 2028Presidential Election Winner 2028只做这 3 组 family,别一口气全生态扫描。
因为:
5m,高流动事件再加 1m记录:
第一轮 output 应该是:
如果这一步结果还像论文里的 2%~4% persistent divergence, 再升级到第二轮:
---
这篇 2026 论文最值得 desk 先拿走的,不是“semantic alignment framework”这几个字, 而是它背后那条很硬的 cross-platform conditional-arbitrage raw alpha:
> 把语义上等价的 prediction markets 凑成一个必值 1.00 的 bundle,只要当前买入成本在费用后仍明显低于 1.00,这就是一笔可独立建簿、可持有到 resolution 的 structural RV trade。
对我们现在的素材池来说,这条线值钱的地方在于: 它不是又一个单平台形态,而是一个可以持续生成新 pairs / subset / partition 候选的上游引擎。
---