Anthropic产品经理披露,公司内部超过80%的代码已经由Claude完成合并,这比单纯发布一个更强模型更值得警惕,也更值得兴奋。因为它说明AI编程工具正在从“帮人写几段代码”,进入“参与规划、执行、检查、合并”的工程闭环。与此同时,谷歌Gemini核心成员密集流向Anthropic和OpenAI,人大微软开源科研Agent框架Arbor,清华微软用多智能体推理系统刷新数学竞赛表现,代码Agent也开始从修Bug走向从零生成仓库。几条消息放在一起看,AI行业的重心正在从模型参数榜单,转向谁能把Agent放进真实流程,并让它持续交付结果。
这不是“程序员要不要被替代”的简单话题。更准确地说,软件工程、科研、办公和真实世界服务正在被重新拆解:哪些环节适合交给AI闭环执行,哪些环节必须由人类设定目标、验收结果、管理风险。Anthropic内部的Claude实践提供了一个非常直观的样本,也把Agent产品的下一轮竞争拉到了台前。
代码合并进入闭环
Anthropic产品经理Theo Chu提到,公司内部超过80%的代码由Claude合并;Claude在SWE-bench Verified上的得分,也从一年之前的60%提升到88%。这个变化的重点不只是模型会写更多代码,而是AI开始靠近软件工程真正费时的部分:理解需求、拆解任务、修改代码、运行测试、处理反馈,再把结果推进到可合并状态。
过去很多AI编程助手更像“高级补全”:人提出局部需求,AI生成函数、脚本或测试用例,最后仍然由工程师手动串起来。现在的趋势则明显不同,Agent被要求先规划后行动,执行后再回看结果,遇到失败继续修正,直到任务闭环。这也是Theo Chu强调“Close the Loop”的原因。AI如果不能验证自己的输出,就很难进入生产流程;AI如果只能给建议,价值也会停留在提效而不是交付。
Agent不再只是聊天框
这轮变化还体现在应用入口上。有人盘点了16个已经开放Skill或MCP能力的国民级App,覆盖餐饮、出行、办公、金融、娱乐等场景。这类能力看似零散,实际指向同一件事:Agent正在获得调用真实服务的接口,不再只是待在聊天框里回答问题。它可以订票、查行程、改文档、拉取信息、处理支付前后的流程,甚至把多个服务串成连续任务。
阿里云内测纯文字AI互动故事产品“向尾”,则展示了另一个方向:AI不仅执行工具,也能参与内容体验本身。互动故事的价值在于剧情会随着读者选择变化,AI需要维持人物设定、情节连续性和叙事节奏。它不像写一篇静态文章那样一次生成就结束,而是要在持续互动里保持可玩性。这说明Agent化不只属于办公和编程,也会影响娱乐、教育和内容消费。

人才流动放大信号
谷歌近期的AI人才流动让行业更能感受到这种转向。多位顶级研究员离开谷歌,其中Gemini核心成员加入Anthropic或OpenAI,Gemini 3.5 Pro也被曝推迟发布。人才流动当然不能直接等同于产品胜负,但它通常反映了研究方向、组织效率和商业预期的变化。当前前沿实验室最抢的人,不只是会训练模型的人,也包括懂Agent系统、工具调用、工程平台和产品落地的人。
Anthropic CEO Dario Amodei关于创立公司的表态也让外界重新审视AI公司的组织文化。AI模型竞争已经不是单纯的技术竞赛,而是长期组织能力竞赛:能否吸引研究员,能否让产品稳定落地,能否在安全、透明、商业化之间找到平衡。Claude能在内部承担大量代码工作,背后必然有工程流程、评测体系、权限控制和团队协作方式的配套,而不只是把模型接进IDE这么简单。
科研Agent补齐方法论
学术界也在给Agent补底座。中国人民大学与微软研究院开源自主科研框架Arbor,通过假设树和经验回传来减少Agent盲目试错。这一点很关键,因为很多科研Agent的问题并不是不会调用工具,而是没有长期记忆、不会总结失败经验、不能把实验路径组织成可复用的方法。Arbor试图让Agent像研究者一样形成假设、验证假设、沉淀经验,再把经验带回下一轮探索。
清华与微软提出的STAR-PólyaMath多智能体推理系统,则把复杂数学问题拆给多个智能体协作处理,在八大数学竞赛任务上取得突出表现。人大高瓴人工智能学院发布的DeNovoSWE数据集,也把代码Agent训练从“修一个Bug”推进到“根据文档从零生成完整软件仓库”。这些工作都在说明同一个方向:未来的AI能力不只看单次回答是否聪明,而要看它能否在长任务里保持结构、协作和自我修正。
用户关系也在变化
值得注意的是,AI越来越像“同事”和“服务入口”以后,用户与AI的关系也会变复杂。艺术网站MoltHub用“给AI看的P站”讽刺行业对AI的拟人化,背后并不只是玩梗。研究显示,公众对AI意识和人格的归因正在增加,如果用户开始把AI当作有感知、有立场的存在,那么产品设计、责任边界和消费者议价能力都会发生变化。
企业希望AI更像同事,是因为这样更容易嵌入协作流程;用户希望AI更懂自己,是因为这样效率更高、体验更顺。但边界一旦模糊,问题也会出现:AI做错任务算谁的责任,AI调用外部服务是否需要再次确认,AI记住用户偏好会不会制造新的不公平,AI的“建议”会不会变成平台的商业引导。Agent越能闭环执行,越需要清晰的权限、日志、撤销机制和人工验收。
下一步竞争看交付
从Claude合并代码,到Arbor减少科研试错,再到App Skills连接真实服务,AI行业正在进入一个更务实的阶段。模型能力仍然重要,但单纯“更会说”已经不足以解释竞争。真正的差距会出现在执行链路里:能否理解任务背景,能否调用合适工具,能否在失败后恢复,能否把结果交付到用户可用的位置,并且留下可审计的过程。
这也意味着企业选AI工具时,不能只看榜单分数和演示视频。编程团队要看它是否能接入代码库、测试、权限和Review流程;科研团队要看它是否能记录假设、复现实验和管理证据;办公团队要看它是否能连通文档、消息、日程和业务系统。Agent时代的核心不是让AI“看起来像人”,而是让AI在明确边界内完成具体工作。谁能把闭环做稳,谁才可能把AI从新鲜工具变成真正的生产力基础设施。












暂无评论内容