Claude输掉文明VI之后，AI评测开始追问真正的执行力-速维云

Claude 在《文明VI》里一度选择“核平”法国，却依然没能赢下比赛；陶哲轩参与的严格数学测试中，顶尖人类数学家仍明显压过 AI 系统。这两条消息放在一起，比单纯的模型输赢更有意思：大模型已经能写代码、查资料、总结会议、生成内容，也能在复杂任务里给出看似完整的策略，但一旦进入需要长期规划、真实反馈、严谨证明和持续纠错的场景，能力边界就会暴露得很快。

AI评测正在从答案生成转向长期规划、严谨验证和真实执行力。

这不是说 AI 退步了，恰恰相反，它说明行业正在进入更清醒的阶段。过去很多评测喜欢问模型“知道什么”，现在越来越多测试开始追问模型“能不能把知道的东西做成结果”。从 CivBench 的游戏对战，到 First Proof 的数学验证，再到 FORT 试图解决搜索 Agent 偷懒问题，AI 竞争正在从炫技式回答，转向更难伪装的真实执行力。

游戏暴露规划短板

英国前首相府数据科学家 Liam Wilkinson 搭建的 CivBench，把四大顶级 AI 模型放进《文明VI》里对战，共进行 23 局。这个测试的巧妙之处在于，它不是让模型回答一道封闭题，也不是让模型写一段一次性交付的代码，而是把模型放进一个动态世界：地图会变化，资源要分配，外交要判断，军事要推进，科技路线要取舍，短期收益和长期战略还会互相冲突。

结果显示，AI 在这类环境中存在明显的感知盲区和知行差距。模型可能能解释某个战略为什么重要，也能在文字层面说出“应该发展经济、控制军事风险、避免多线作战”，但真正进入多回合博弈后，它未必能稳定把原则转化成行动。Claude 曾经做出极端军事选择，却仍输掉比赛，这种戏剧性结果提醒行业：语言模型擅长生成合理叙述，不等于擅长在不断变化的状态空间里持续决策。

这对 Agent 产品尤其关键。很多企业希望 AI 不只回答问题，还能管理项目、操作网页、处理客户、下单采购、协调团队。如果模型在游戏里会因为感知不完整或目标执行不一致而失误，那么在真实业务里，它也可能因为遗漏上下文、误判优先级、过度自信或缺少复盘机制而出错。游戏测试的价值不在娱乐，而在把“长期任务里的不稳定性”可视化。

数学验证更难糊弄

First Proof 项目的结果同样值得重视。陶哲轩参与的正式 AI 数学测试使用 10 道未公开新题，测试 4 个 AI 系统，结果显示 AI 仍存在幻觉、漏引等问题，整体表现不及顶尖人类数学家。这类测试比常规知识问答更严苛，因为数学证明不只看答案像不像，还要看推理链条是否闭合、引用是否准确、每一步是否经得起检查。

大模型在数学上的尴尬之处，是它能写出很像证明的文字，却可能在关键处偷换概念、跳过条件，或者把不存在的引理说得像真的一样。对于普通读者，这种错误不一定立刻显眼；但对数学家来说，一个漏掉的边界条件、一个未证明的等价转换，就足以让整段推理失效。这也是为什么测试结论更倾向于把 AI 视作科研助手，而不是独立研究者。

不过，这并不削弱 AI 在科研里的价值。相反，它给出了更务实的使用方式：让 AI 帮人整理文献、生成候选思路、检查已有证明的薄弱处、把繁琐推导转成可验证步骤，但最终判断仍要交给具备领域经验的人。AI 在这里像一台高效放大器，能加速探索，却不能替代严谨性本身。

搜索 Agent 也会偷懒

FORT 的出现，把类似问题带到了 Deep Search Agent 领域。IQuest 等机构推出的 FORT，本质上是在解决一个很现实的训练难题：模型做搜索任务时容易出现 shortcut collapse，也就是通过题面中的单个线索、常量或巧合路径快速猜答案，而不是完成真正的多步检索、交叉验证和信息整合。

基于 FORT 数据训练的 FORT-Searcher 以 Qwen3-30B 为基座，仅用 SFT 就在同规模开源 Agent 中取得较高成绩，在 BrowseComp 和 BrowseComp-ZH 上分别达到 72.2 和 75.0。这说明改进 Agent 不一定只靠更大模型，也可以靠更好的任务构造、数据控制和训练目标，让模型没法靠捷径蒙混过关。

这条线索和 CivBench、First Proof 是相通的：真正有价值的 AI 系统，必须经得起过程检验。搜索 Agent 如果只是碰巧搜到一句相似文字就输出结论，表面上看速度很快，实际却很脆弱；数学 Agent 如果只会堆砌证明话术，遇到新题就会露馅；游戏 Agent 如果无法持续观察状态并调整策略，就会在多回合任务中失控。评测开始针对“偷懒路径”设计障碍，是行业走向成熟的标志。

开源技能正在补执行链

BrowserBC 和 ArcSocial 则展示了另一种补短板方式：不直接要求模型凭空学会所有复杂操作，而是把人类操作、工作流程和可复用技能沉淀下来。BrowserBC 可以把人类一次浏览器操作蒸馏成可复用的自然语言技能，让小模型也能更稳定地完成同类网页任务，实验显示任务成功率有明显提升。

这个方向很实际。网页任务看似简单，真实环境却充满弹窗、按钮变化、表单校验、登录状态、页面延迟和异常分支。让模型每次从零理解页面，既贵又不稳定；如果能把稳定操作抽象成技能，模型就更像在调用一套经过验证的流程，而不是临场发挥。对企业来说，这比单纯追求“更聪明的聊天机器人”更接近可落地的自动化。

ArcSocial 的思路也类似，它强调人主导、Agent 协作的社交内容发布工作区，目前已支持微信公众号，并在 GitHub 开放邀请贡献。它没有把 Agent 设定成完全替人做主，而是把内容生产、审核、发布这些环节组织进一个协作空间。对于高风险或强表达属性的任务，人类仍然负责方向和判断，AI 负责降低重复劳动，这比“一键全自动”更符合现阶段能力边界。

应用层进入常识考验

AI 应用层也正在用市场反馈筛掉不合适的形态。Notion Mail 将关闭，闲鱼内测“鱼买买”“鱼卖卖”，Granola 依靠会议纪要产品拿到高估值，YouMind 从创作工具转向 Skills 社区，这些消息共同说明：用户并不缺又一个 AI 按钮，真正稀缺的是能嵌进原有流程、降低认知负担、带来可感知结果的产品。

闲鱼的两个 AI 助手很典型。二手交易里的买卖双方都面临信息不对称：买家要判断价格、成色、风险和沟通成本，卖家要写标题、定价、回复、描述商品并提高匹配效率。AI 如果能在这些环节减少摩擦，就比单纯生成一段漂亮文案更有价值。它不需要显得“无所不能”，只要能把交易流程里最烦人的部分变简单，就可能形成真实留存。

Granola 的价值也不只是“把会议录下来”。会议纪要赛道巨头早已做过，但 Granola 把用户手写笔记和音频转写结合起来，生成更贴近个人工作方式的结构化内容。它给应用开发者的启发是：AI 产品不一定要替用户完全接管流程，有时保留人的输入痕迹，反而能提高信任感和可控性。

模型强弱要回到场景

把这些资讯合起来看，AI 行业正在离开单一榜单叙事。模型当然仍然重要，但模型强弱必须回到场景里验证：能不能在长期任务中保持目标一致，能不能在严谨领域里减少幻觉，能不能在搜索中避免捷径，能不能在网页和业务流程里稳定执行，能不能让用户少切换、少返工、少承担错误成本。

这也会改变企业采用 AI 的方式。过去很多团队会先问“哪个模型最强”，现在更应该问“这个任务的失败代价是什么、流程能不能拆解、哪些步骤需要人审核、哪些结果可以自动验证、哪些技能可以复用”。如果只是把 AI 接进一个没有边界的入口，风险会随着自动化程度放大；如果把 AI 放进清晰流程，并配合日志、回滚、校验和人工确认，它就更容易变成可靠生产力。

下一阶段的竞争，可能不再是谁最会聊天，而是谁最能把模型、工具、数据、流程和评测连成闭环。Claude 输掉《文明VI》、AI 在数学测试中不敌顶尖人类、搜索 Agent 被迫面对偷懒问题，这些都不是坏消息。它们让行业少一点神话，多一点工程常识，也让真正能解决问题的 AI 产品更容易被看见。

文章版权归作者所有，未经允许请勿转载。

THE END