用大模型做Polymarket事件量化交易系统五个月有感

简单的开始

我从2025年12月底开始探索使用系统的方式来代替手动进行Polymarket事件交易，除了年初工作忙一点、时间不多，到现在差不多五个月了。

这件事的想法很简单。

在这之前，我曾经尝试过一段时间Polymarket事件的手动交易。

那段时间手动交易的表现虽然不算好（做了二十来个事件，最后的结果是基本持平），不过对于亏损和盈利的事件，基本上都能看到比较明确的逻辑。如果能执行得很好，其实是可优化的。

所以我就想，既然依赖自己的交易纪律性实在靠不住，用程序的方式来复刻我的交易逻辑，不就会好很多吗？

Polytrader开发过程

目前我的系统（Polytrader）的各个部分，和刚开始时几乎都不太一样。

准确地说，要比我最开始预想的复杂很多倍。这并不是我想要的复杂度，但是我发现为了达到我当初的预期，很多事情你很难不做，很多规律很难不去遵守。

我之前的手动交易方法是，把适合LLM（大语言模型）做预测分析的事件的结构性特征总结出来，然后只做这类事件。

那个时候不算很系统，不过也有一些初步的标准。

比如总结了一些维度（并根据表现去优化），根据这些维度对新事件进行评分，这是筛选逻辑。

那时使用的LLM是Google的Deep Research，配合GPT的Deep Research，一个事件会跑十次深度研究。只有在其结论和分析概率比较一致的情况下（往往是极大或极小，极小居多），才会进行交易。

然后每笔事件交易会记录到Excel中，其中包括交易的时间、建仓成本、edge，以及d_edge（衡量事件在最迟到期前的预期日均edge），还有Kelly（不过那时只算参考），以及下次重新评估的时间。

然后对于持仓的重点事件会进行重新评估，以衡量其基本面发展的变化并做对应处理。

所以系统开发的逻辑，也完全是按照如何最简单、务实地符合我的交易逻辑去做的。

目前迭代的交易执行流

Polytrader的主要交易思路是：主要交易那些具有公开信息的事件（也就是市场参与方在信息层的能力是平等的），借助LLM的客观无情绪分析能力和模拟人的交易执行流程，通过确定性的交易纪律性和避免情绪认知偏差来获得优势。

这个思路应该挺好理解，不过其中确实有很多要解决和妥善处理的问题。

所以关于系统的流程如何设计以达到比较好的效果，目前已经迭代了好几版（不是因为现在的有多好，相反，是因为最初自己的理解远达不到效果的预期）。

目前的Polytrader执行流简要来说，分为以下步骤（均由LLM和代码来自动执行）：

阶段 0. 事件入库

阶段 1. 事件侧写环节（Profile） 明确事件主体、解决这个事件的"what"和"why"的问题。因为同样一个主体的名称在不同的场景下可能就有歧义，如有些LLM看到Trump默认就只记住他是45任总统（即使他也是47任），这就导致了其推理的信息默认前提差距很大。这些问题都会为系统埋下不可预测的未知隐患。所以这个流程是为了解决这个问题。

阶段 2. 明确事件判定规则 把冗长的事件判定规则使用LLM做理解和清洗，明确最重要的判定规则和判定源。所以后续的实际判定概率分析的LLM就可以专注于整合各阶段既有干净的信息进行高质量分析，而不需要损耗额外的注意力来解析判定Rules。

阶段 3. 匹配UMA历史相似事件争议率 争议风险环节：为当前事件检索历史上相似的事件，判定争议率是多少？争议率高的事件就不会交易。需要提前做RAG库，以实现事件的抽象匹配（即忽略不同的主体，只专注于判定模式和判定源的相似性）。

阶段 4. 信息检索环节

4-1. 使用几个不同的检索方式/渠道去获取：为了能够准确判定，应该搜索什么信息？以及执行搜索。

4-2. 信息搜索补足环节：根据 4-1 的结果，以最新的信息证据去考虑，还差哪些信息？是否需要补足搜索什么信息？然后执行信息补足搜索。

4-3. 信息归档、源分级：按时间线、信息源的可信度质量等级，结构化整理4-2的最终结果信息。这里有一个重点是：不同信息源的质量和可信度是不同的。比如判定官方源 > 国际主流媒体 > 区域性知名媒体 >= 地方性可信媒体 > 个人社媒。这一点非常重要，因为信息永远不缺，缺的是可信的信息。所以系统应该根据掌握信息的信息质量等级，来进行评估。

4-4. 信息完整性评估：回答"未知的未知"，而不是基于实际有缺失（但是目前十分高质量）的信息，做出自负的交易决策。即：为了准确判定这个事件，当前系统已掌握的信息的完整性分数是多少？这一点也非常重要，理论上你的系统信息检索流程设计的再好，只能接近100%的获取率，永远会存在遗漏的问题或可能，这一点则是为了这个考虑。

阶段 5. CEO评估环节 根据以上所有必要信息，去分析和输出这个事件的发生概率、概率的置信度（基于上述信息源的分级质量），以及分析结论、给出初步交易信号等。这个环节就相当于是系统的大脑，最终的分析和决策是它基于所有信息做出的。但是它的输出只为后续的交易门槛提供判断条件数据，不触发交易。

阶段 6. 交易策略分发及匹配 如果CEO评估通过了，那么系统会对当前已有交易策略的各项数据与结构性特征进行匹配，判断是否满足对应的交易策略。

阶段 6-1. edge交易门槛条件匹配 当阶段 6 的所有条件命中和满足之后，会进行edge/d_edge门槛条件匹配。若是在edge层也满足了合理的预期交易门槛，才会根据对应的策略仓位触发交易。

这个执行流和架构（实际要更复杂和细节一些，不过这确实是目前核心的流程），不是一拍脑袋想出来的，而是通过几个月的探索和迭代出来的。其中每个环节都有它的价值和作用。

交易策略挖掘的理解和之前完全不同

首先我的感觉是，交易信号或者说策略本身是不难找的。有些直觉可能就是Alpha（虽然不代表就有好的表现）。

但是从程序化的方式做起来之后，我发现如果没有经过一些必要的压力测试（统计回测），可能会很危险，不仅没有优势，还会遗留风险。

最主要的一点是，统计方面的验证。

除了直觉、感受、逻辑，这个交易策略在足够的事件数据上回测，是否具有明确的正期望优势？它的优势具体在哪里？是否可复用到未来的市场事件中（一定程度上是可分析的）？

这个的意义其实不是严不严谨的问题，而是本质上到底是在靠运气，还是在靠确定性的概率取胜？

所以这就意味着，我们相对市场的优势是来源于更健壮的系统，以及更确定性的概率验证。

这一点其实挺重要的，不过我也不敢说自己内化得很好。但这确实和我之前的理解是不同的。

非交易外的时间和精力的花费要比预想中多很多

如果说策略挖掘、表现分析、系统设计（甚至是实现）是预期的事件量化交易的核心的话；

那么这5个月过去后，虽然之前AI也和我提过这一点，但现在我有了很明确的感受：虽然以上这些确实重要，也确实需要不少时间，但是真正花销最多时间和精力的，其实是在"确保系统的实现和运行与预期中完全一致"上面。

即工程方面的时间：系统的构建、调试、Debug（几乎一定会有）和优化。

即使我们现在都是0代码开发，并且使用的也是目前最好的开发模型（Opus 4.7 / Sonnet 4.6）。

回头看，其实有些不必要的时间和精力是可以避免的。比如，通过更深度的参与和理解系统及各环节的设计，来避免之后出现的大部分预期外的问题。

最后的一些感想

目前AI的能力处于快速发展中，开发和构建一个系统的门槛从未像现在一样容易。事件交易市场本身也刚处于很好的成长期。

所以在这样的时间点，能够有机会去探索这件事情，做一个系统去验证一些想法，并且去迭代和优化它，使其在这个市场中逐步具有更强的生存和行为能力，还算是一件挺好的事情。

这就是我这五个月来的足迹和想法。

这件事确实不算容易，不过好在它是可以构建和被优化的。

所以我想，抛开这些问题、探索、以及后面的挑战，我更想说的是：

五个月已过。

那么，五年后，你还会在吗？

目前系统处于，刚详细回测和开发的交易策略的实盘的持续运行和观测阶段。

Polytrader 系统 Overview 页面

PS：系统的前后端也重构过一次啦，之前是用的Streamlit，后面进行了更适合长期的前后端重构。

简单的开始#

Polytrader开发过程#

目前迭代的交易执行流#

交易策略挖掘的理解和之前完全不同#

非交易外的时间和精力的花费要比预想中多很多#

最后的一些感想#