Claude合并八成代码后，Agent竞争开始拼真实工作闭环-速维云

Anthropic产品经理披露，公司内部超过80%的代码已经由Claude完成合并，这比单纯发布一个更强模型更值得警惕，也更值得兴奋。因为它说明AI编程工具正在从“帮人写几段代码”，进入“参与规划、执行、检查、合并”的工程闭环。与此同时，谷歌Gemini核心成员密集流向Anthropic和OpenAI，人大微软开源科研Agent框架Arbor，清华微软用多智能体推理系统刷新数学竞赛表现，代码Agent也开始从修Bug走向从零生成仓库。几条消息放在一起看，AI行业的重心正在从模型参数榜单，转向谁能把Agent放进真实流程，并让它持续交付结果。

这不是“程序员要不要被替代”的简单话题。更准确地说，软件工程、科研、办公和真实世界服务正在被重新拆解：哪些环节适合交给AI闭环执行，哪些环节必须由人类设定目标、验收结果、管理风险。Anthropic内部的Claude实践提供了一个非常直观的样本，也把Agent产品的下一轮竞争拉到了台前。

代码合并进入闭环

Anthropic产品经理Theo Chu提到，公司内部超过80%的代码由Claude合并；Claude在SWE-bench Verified上的得分，也从一年之前的60%提升到88%。这个变化的重点不只是模型会写更多代码，而是AI开始靠近软件工程真正费时的部分：理解需求、拆解任务、修改代码、运行测试、处理反馈，再把结果推进到可合并状态。

过去很多AI编程助手更像“高级补全”：人提出局部需求，AI生成函数、脚本或测试用例，最后仍然由工程师手动串起来。现在的趋势则明显不同，Agent被要求先规划后行动，执行后再回看结果，遇到失败继续修正，直到任务闭环。这也是Theo Chu强调“Close the Loop”的原因。AI如果不能验证自己的输出，就很难进入生产流程；AI如果只能给建议，价值也会停留在提效而不是交付。

Agent不再只是聊天框

这轮变化还体现在应用入口上。有人盘点了16个已经开放Skill或MCP能力的国民级App，覆盖餐饮、出行、办公、金融、娱乐等场景。这类能力看似零散，实际指向同一件事：Agent正在获得调用真实服务的接口，不再只是待在聊天框里回答问题。它可以订票、查行程、改文档、拉取信息、处理支付前后的流程，甚至把多个服务串成连续任务。

阿里云内测纯文字AI互动故事产品“向尾”，则展示了另一个方向：AI不仅执行工具，也能参与内容体验本身。互动故事的价值在于剧情会随着读者选择变化，AI需要维持人物设定、情节连续性和叙事节奏。它不像写一篇静态文章那样一次生成就结束，而是要在持续互动里保持可玩性。这说明Agent化不只属于办公和编程，也会影响娱乐、教育和内容消费。

AI Agent正从辅助生成走向规划、执行、验证和交付闭环。

人才流动放大信号

谷歌近期的AI人才流动让行业更能感受到这种转向。多位顶级研究员离开谷歌，其中Gemini核心成员加入Anthropic或OpenAI，Gemini 3.5 Pro也被曝推迟发布。人才流动当然不能直接等同于产品胜负，但它通常反映了研究方向、组织效率和商业预期的变化。当前前沿实验室最抢的人，不只是会训练模型的人，也包括懂Agent系统、工具调用、工程平台和产品落地的人。

Anthropic CEO Dario Amodei关于创立公司的表态也让外界重新审视AI公司的组织文化。AI模型竞争已经不是单纯的技术竞赛，而是长期组织能力竞赛：能否吸引研究员，能否让产品稳定落地，能否在安全、透明、商业化之间找到平衡。Claude能在内部承担大量代码工作，背后必然有工程流程、评测体系、权限控制和团队协作方式的配套，而不只是把模型接进IDE这么简单。

科研Agent补齐方法论

学术界也在给Agent补底座。中国人民大学与微软研究院开源自主科研框架Arbor，通过假设树和经验回传来减少Agent盲目试错。这一点很关键，因为很多科研Agent的问题并不是不会调用工具，而是没有长期记忆、不会总结失败经验、不能把实验路径组织成可复用的方法。Arbor试图让Agent像研究者一样形成假设、验证假设、沉淀经验，再把经验带回下一轮探索。

清华与微软提出的STAR-PólyaMath多智能体推理系统，则把复杂数学问题拆给多个智能体协作处理，在八大数学竞赛任务上取得突出表现。人大高瓴人工智能学院发布的DeNovoSWE数据集，也把代码Agent训练从“修一个Bug”推进到“根据文档从零生成完整软件仓库”。这些工作都在说明同一个方向：未来的AI能力不只看单次回答是否聪明，而要看它能否在长任务里保持结构、协作和自我修正。

用户关系也在变化

值得注意的是，AI越来越像“同事”和“服务入口”以后，用户与AI的关系也会变复杂。艺术网站MoltHub用“给AI看的P站”讽刺行业对AI的拟人化，背后并不只是玩梗。研究显示，公众对AI意识和人格的归因正在增加，如果用户开始把AI当作有感知、有立场的存在，那么产品设计、责任边界和消费者议价能力都会发生变化。

企业希望AI更像同事，是因为这样更容易嵌入协作流程；用户希望AI更懂自己，是因为这样效率更高、体验更顺。但边界一旦模糊，问题也会出现：AI做错任务算谁的责任，AI调用外部服务是否需要再次确认，AI记住用户偏好会不会制造新的不公平，AI的“建议”会不会变成平台的商业引导。Agent越能闭环执行，越需要清晰的权限、日志、撤销机制和人工验收。

下一步竞争看交付

从Claude合并代码，到Arbor减少科研试错，再到App Skills连接真实服务，AI行业正在进入一个更务实的阶段。模型能力仍然重要，但单纯“更会说”已经不足以解释竞争。真正的差距会出现在执行链路里：能否理解任务背景，能否调用合适工具，能否在失败后恢复，能否把结果交付到用户可用的位置，并且留下可审计的过程。

这也意味着企业选AI工具时，不能只看榜单分数和演示视频。编程团队要看它是否能接入代码库、测试、权限和Review流程；科研团队要看它是否能记录假设、复现实验和管理证据；办公团队要看它是否能连通文档、消息、日程和业务系统。Agent时代的核心不是让AI“看起来像人”，而是让AI在明确边界内完成具体工作。谁能把闭环做稳，谁才可能把AI从新鲜工具变成真正的生产力基础设施。

文章版权归作者所有，未经允许请勿转载。

THE END