Gemini自我改进信号出现，AI竞争从模型发布走向系统工程-速维云

谷歌 DeepMind 高层把 Gemini 的未来方向讲得很直白：模型不只是回答问题，还可能用自己写出的代码继续改进自己。这个表述听起来像一句技术愿景，但它背后牵出的变化很现实——大模型竞争正在从“训练出一个更强模型”，走向“搭出一套能评测、能蒸馏、能改写工具链、能在真实任务里持续变好的系统”。

微软开源 SkillOpt、清华提出 LMNet、人大团队梳理 Rubrics 评价体系、OpenAI 开源隐私过滤模型，再加上 Coze 3.0 这类多 Agent 平台升级，几条消息拼在一起看，AI 行业的焦点已经不止是参数量和榜单分数。下一阶段更关键的是：模型如何把能力压缩进可部署的小模型，如何把技能文档和工具调用变成可优化对象，如何用更细的评价标准判断答案好不好，以及如何在企业环境里安全地处理敏感数据。

模型开始改进自己

谷歌 DeepMind 的公开对谈里，最醒目的信号是“Gemini 将用自己写的代码改进自己”。这不是说模型马上脱离人类监管自动进化，而是说明模型研发正在引入更多自动化环节：生成实验代码、辅助数据处理、改写评测脚本、参与蒸馏流程，甚至帮助研究人员更快发现训练中的弱点。

这类能力一旦成熟，模型研发节奏会明显改变。过去训练大模型更像重资产工程，研发团队要在数据、架构、训练策略、评测和部署之间反复手动调参；现在模型本身可以参与其中一部分环节，把“发现问题—提出修改—运行验证—复盘结果”的循环压缩得更短。对头部实验室来说，这意味着研发效率；对企业用户来说，未来买到的可能不只是一个固定版本模型，而是一套持续迭代的智能系统。

蒸馏不只是压缩

谷歌团队把蒸馏比作“挤柠檬”，这个比喻很形象：大模型像含有丰富能力的柠檬，小模型并不是简单复制外壳，而是要尽可能榨出核心能力。蒸馏的价值也不只是降低部署成本，它决定了强模型能力能否进入手机、PC、企业内网、边缘设备和低延迟应用。

如果一个 1T 级模型只能待在云端，很多实时场景就很难落地；如果蒸馏后的模型能保留足够强的推理、编程、检索和多模态能力，AI 才能嵌进办公软件、客服系统、开发工具和本地设备。英伟达与微软推动 Windows AI PC，本质上也在呼应这条路线：算力下沉到个人工作站，本地模型和云端模型协作，用户才可能获得更低延迟、更好隐私和更稳定的 AI 体验。

AI 竞争正在从单个模型能力，扩展到评测、蒸馏、技能优化和安全部署组成的完整系统。

技能也能被训练

微软 SkillOpt 的看点在于，它把 Agent 技能文档当成可训练对象。很多人理解 Agent 时，会把重点放在“模型聪不聪明”，但真正进入工作流以后，技能定义、工具描述、步骤约束、失败处理和反馈机制同样重要。一个写得模糊的技能，会让模型反复猜测；一个结构清晰、边界明确、能通过评测不断优化的技能，才可能稳定交付任务。

这也是 Agent 工程化的分水岭。过去的提示词更多依赖经验，像给模型写一段说明书；SkillOpt 这类框架则试图把说明书变成可实验、可比较、可迭代的对象。它的意义不在于让所有人都训练神经网络，而在于提醒企业：真正可用的 Agent 不是“模型加一段提示词”，而是模型、工具、任务规范、评测指标和业务反馈共同组成的系统。

评价标准变细

人大团队关于 Rubrics 的综述也很关键。大模型回答“看起来不错”并不等于真的可用，尤其是在法律、医疗、金融、教育、代码和企业流程里，一个答案需要拆成事实准确性、推理链条、格式约束、风险提示、可执行性、引用完整性等多个维度判断。Rubrics 的作用，就是把“好答案”拆成明确评价项。

当评价标准变细，模型训练和 Agent 部署都会更务实。企业不再只看通用榜单，而是会问：这个模型在我们的知识库里能不能少编造？在客服场景里能不能先核验订单？在代码场景里能不能给出可运行补丁？在审批流程里能不能留下可审计记录？这种变化会让 AI 从演示阶段进入验收阶段，也会让“可靠性”成为和“聪明程度”同等重要的指标。

安全成为系统底座

OpenAI 开源隐私过滤模型，同样说明系统化竞争离不开安全底座。这个模型总参数为 1.5B，推理时只用 50M 活跃参数，能够标记姓名、电话、密码等敏感信息，还支持本地运行和长上下文处理。它的定位并不是替代通用大模型，而是给 AI 应用加一道前置或后置的安全过滤层。

这类工具对企业落地很重要。员工把合同、客户资料、代码仓库、工单记录交给 AI 处理时，最大顾虑之一就是敏感数据泄露。如果隐私识别、脱敏、审计和权限控制可以在本地或私有环境完成，企业才更愿意把 AI 接进核心流程。未来很多 AI 产品的竞争点，可能不是谁的聊天效果更惊艳，而是谁能把数据安全、权限边界和合规流程做得更稳。

平台走向团队协作

Coze 3.0 的升级也值得放到这条主线里看。它支持多端使用、项目化管理、不同 Agent 协作、本地 Agent 接入和技能商店，本质上是在把 Agent 从单个机器人，包装成一套团队协作平台。用户不再只是创建一个问答助手，而是可以围绕一个项目调度多个角色，让它们分别负责资料整理、内容生成、代码执行、检查验收和后续维护。

这类平台会放大前面提到的所有能力：技能需要能优化，评价需要更细，隐私需要可控，模型需要能在云端和本地之间切换。对普通企业来说，真正有价值的 AI 不是单次生成一段文本，而是能嵌进日常流程，降低沟通成本和执行成本。谁能把模型能力做成稳定的协作系统，谁就更接近商业化落地。