Claude 在《文明VI》里一度选择“核平”法国,却依然没能赢下比赛;陶哲轩参与的严格数学测试中,顶尖人类数学家仍明显压过 AI 系统。这两条消息放在一起,比单纯的模型输赢更有意思:大模型已经能写代码、查资料、总结会议、生成内容,也能在复杂任务里给出看似完整的策略,但一旦进入需要长期规划、真实反馈、严谨证明和持续纠错的场景,能力边界就会暴露得很快。

这不是说 AI 退步了,恰恰相反,它说明行业正在进入更清醒的阶段。过去很多评测喜欢问模型“知道什么”,现在越来越多测试开始追问模型“能不能把知道的东西做成结果”。从 CivBench 的游戏对战,到 First Proof 的数学验证,再到 FORT 试图解决搜索 Agent 偷懒问题,AI 竞争正在从炫技式回答,转向更难伪装的真实执行力。
游戏暴露规划短板
英国前首相府数据科学家 Liam Wilkinson 搭建的 CivBench,把四大顶级 AI 模型放进《文明VI》里对战,共进行 23 局。这个测试的巧妙之处在于,它不是让模型回答一道封闭题,也不是让模型写一段一次性交付的代码,而是把模型放进一个动态世界:地图会变化,资源要分配,外交要判断,军事要推进,科技路线要取舍,短期收益和长期战略还会互相冲突。
结果显示,AI 在这类环境中存在明显的感知盲区和知行差距。模型可能能解释某个战略为什么重要,也能在文字层面说出“应该发展经济、控制军事风险、避免多线作战”,但真正进入多回合博弈后,它未必能稳定把原则转化成行动。Claude 曾经做出极端军事选择,却仍输掉比赛,这种戏剧性结果提醒行业:语言模型擅长生成合理叙述,不等于擅长在不断变化的状态空间里持续决策。
这对 Agent 产品尤其关键。很多企业希望 AI 不只回答问题,还能管理项目、操作网页、处理客户、下单采购、协调团队。如果模型在游戏里会因为感知不完整或目标执行不一致而失误,那么在真实业务里,它也可能因为遗漏上下文、误判优先级、过度自信或缺少复盘机制而出错。游戏测试的价值不在娱乐,而在把“长期任务里的不稳定性”可视化。
数学验证更难糊弄
First Proof 项目的结果同样值得重视。陶哲轩参与的正式 AI 数学测试使用 10 道未公开新题,测试 4 个 AI 系统,结果显示 AI 仍存在幻觉、漏引等问题,整体表现不及顶尖人类数学家。这类测试比常规知识问答更严苛,因为数学证明不只看答案像不像,还要看推理链条是否闭合、引用是否准确、每一步是否经得起检查。
大模型在数学上的尴尬之处,是它能写出很像证明的文字,却可能在关键处偷换概念、跳过条件,或者把不存在的引理说得像真的一样。对于普通读者,这种错误不一定立刻显眼;但对数学家来说,一个漏掉的边界条件、一个未证明的等价转换,就足以让整段推理失效。这也是为什么测试结论更倾向于把 AI 视作科研助手,而不是独立研究者。
不过,这并不削弱 AI 在科研里的价值。相反,它给出了更务实的使用方式:让 AI 帮人整理文献、生成候选思路、检查已有证明的薄弱处、把繁琐推导转成可验证步骤,但最终判断仍要交给具备领域经验的人。AI 在这里像一台高效放大器,能加速探索,却不能替代严谨性本身。
搜索 Agent 也会偷懒
FORT 的出现,把类似问题带到了 Deep Search Agent 领域。IQuest 等机构推出的 FORT,本质上是在解决一个很现实的训练难题:模型做搜索任务时容易出现 shortcut collapse,也就是通过题面中的单个线索、常量或巧合路径快速猜答案,而不是完成真正的多步检索、交叉验证和信息整合。
基于 FORT 数据训练的 FORT-Searcher 以 Qwen3-30B 为基座,仅用 SFT 就在同规模开源 Agent 中取得较高成绩,在 BrowseComp 和 BrowseComp-ZH 上分别达到 72.2 和 75.0。这说明改进 Agent 不一定只靠更大模型,也可以靠更好的任务构造、数据控制和训练目标,让模型没法靠捷径蒙混过关。
这条线索和 CivBench、First Proof 是相通的:真正有价值的 AI 系统,必须经得起过程检验。搜索 Agent 如果只是碰巧搜到一句相似文字就输出结论,表面上看速度很快,实际却很脆弱;数学 Agent 如果只会堆砌证明话术,遇到新题就会露馅;游戏 Agent 如果无法持续观察状态并调整策略,就会在多回合任务中失控。评测开始针对“偷懒路径”设计障碍,是行业走向成熟的标志。
开源技能正在补执行链
BrowserBC 和 ArcSocial 则展示了另一种补短板方式:不直接要求模型凭空学会所有复杂操作,而是把人类操作、工作流程和可复用技能沉淀下来。BrowserBC 可以把人类一次浏览器操作蒸馏成可复用的自然语言技能,让小模型也能更稳定地完成同类网页任务,实验显示任务成功率有明显提升。
这个方向很实际。网页任务看似简单,真实环境却充满弹窗、按钮变化、表单校验、登录状态、页面延迟和异常分支。让模型每次从零理解页面,既贵又不稳定;如果能把稳定操作抽象成技能,模型就更像在调用一套经过验证的流程,而不是临场发挥。对企业来说,这比单纯追求“更聪明的聊天机器人”更接近可落地的自动化。
ArcSocial 的思路也类似,它强调人主导、Agent 协作的社交内容发布工作区,目前已支持微信公众号,并在 GitHub 开放邀请贡献。它没有把 Agent 设定成完全替人做主,而是把内容生产、审核、发布这些环节组织进一个协作空间。对于高风险或强表达属性的任务,人类仍然负责方向和判断,AI 负责降低重复劳动,这比“一键全自动”更符合现阶段能力边界。
应用层进入常识考验
AI 应用层也正在用市场反馈筛掉不合适的形态。Notion Mail 将关闭,闲鱼内测“鱼买买”“鱼卖卖”,Granola 依靠会议纪要产品拿到高估值,YouMind 从创作工具转向 Skills 社区,这些消息共同说明:用户并不缺又一个 AI 按钮,真正稀缺的是能嵌进原有流程、降低认知负担、带来可感知结果的产品。
闲鱼的两个 AI 助手很典型。二手交易里的买卖双方都面临信息不对称:买家要判断价格、成色、风险和沟通成本,卖家要写标题、定价、回复、描述商品并提高匹配效率。AI 如果能在这些环节减少摩擦,就比单纯生成一段漂亮文案更有价值。它不需要显得“无所不能”,只要能把交易流程里最烦人的部分变简单,就可能形成真实留存。
Granola 的价值也不只是“把会议录下来”。会议纪要赛道巨头早已做过,但 Granola 把用户手写笔记和音频转写结合起来,生成更贴近个人工作方式的结构化内容。它给应用开发者的启发是:AI 产品不一定要替用户完全接管流程,有时保留人的输入痕迹,反而能提高信任感和可控性。
模型强弱要回到场景
把这些资讯合起来看,AI 行业正在离开单一榜单叙事。模型当然仍然重要,但模型强弱必须回到场景里验证:能不能在长期任务中保持目标一致,能不能在严谨领域里减少幻觉,能不能在搜索中避免捷径,能不能在网页和业务流程里稳定执行,能不能让用户少切换、少返工、少承担错误成本。
这也会改变企业采用 AI 的方式。过去很多团队会先问“哪个模型最强”,现在更应该问“这个任务的失败代价是什么、流程能不能拆解、哪些步骤需要人审核、哪些结果可以自动验证、哪些技能可以复用”。如果只是把 AI 接进一个没有边界的入口,风险会随着自动化程度放大;如果把 AI 放进清晰流程,并配合日志、回滚、校验和人工确认,它就更容易变成可靠生产力。
下一阶段的竞争,可能不再是谁最会聊天,而是谁最能把模型、工具、数据、流程和评测连成闭环。Claude 输掉《文明VI》、AI 在数学测试中不敌顶尖人类、搜索 Agent 被迫面对偷懒问题,这些都不是坏消息。它们让行业少一点神话,多一点工程常识,也让真正能解决问题的 AI 产品更容易被看见。












暂无评论内容