Matrix把无人公司推上台前后,Agent竞争开始进入经营层

Flowith团队把 Matrix 推到台前,真正有冲击力的地方不是“又多了一个 Agent 产品”,而是它把 AI 从任务助手包装成了一套可以分工、调度、产出和复盘的经营系统。用户设定目标后,CEO 级 Agent 会把任务拆给调研、生产、分析等不同部门,再自动连接外部工具与收款账户,听起来像科幻,实际指向的是一个很现实的问题:当 AI 不再只负责回答问题,而是开始承接业务流程,企业该如何重新理解“组织能力”。

这条新闻也把几条看似分散的 AI 动态串在了一起。美团 LongCat-2.0 用超 5 万张国产算力卡训练万亿参数模型,明略科技 Octo 试图编织 Agent 协作网络,蚂蚁 AReaL 2.0 把真实交互数据转成 Agent 自演进训练材料,华为 openJiuwen 社区开源 AutoGenetic Memory 解决跨会话记忆问题。模型、算力、协作、记忆和训练闭环都在补齐,最终指向的不是更会聊天的机器人,而是更像“数字组织”的工作系统。

无人公司不是噱头

Matrix 的产品叙事很大胆:多 Agent 协作运营“无人公司”。但把营销词拆开看,它真正要解决的是复杂目标如何被 AI 连续执行。过去的 AI 助手通常围绕单次指令展开,用户让它写文案、查资料、生成表格、改代码,它就完成一个相对明确的动作。Matrix 试图把这些动作连成业务链条,让不同 Agent 像公司里的不同岗位一样分工协作,并由一个更高层级的 Agent 进行统筹。

这种设计的价值在于,许多商业任务本来就不是单点能力竞赛。做一个产品页面,需要市场调研、卖点提炼、素材生产、页面搭建、数据分析和后续优化;运营一个内容账号,需要选题、撰稿、排版、发布、评论监测和复盘;测试一个新生意,也要经历用户画像、竞品分析、定价、落地渠道和转化验证。单个模型再强,如果每一步都要人手动复制粘贴,效率提升会被流程割裂吞掉。多 Agent 协作的核心,就是让 AI 从“工具箱”变成“流程网络”。

经营层的入口

Matrix 在 GDPval-Bench 评测中给出 95.45% 准确率,并宣称超过 Claude Opus 4.7,这个数据当然还需要更多真实场景检验。但它至少说明,Agent 产品竞争已经开始从“能不能完成任务”走向“能不能稳定承担岗位型职责”。所谓 CEO 级 Agent 并不意味着 AI 真能替代企业家,而是它开始模拟企业内部的目标拆解、优先级判断、资源调度和结果验收。

这也是 Agent 赛道比普通聊天机器人更复杂的地方。聊天机器人主要看知识、推理和表达;经营型 Agent 还要看上下文管理、工具调用、权限边界、任务记忆、异常处理和成本控制。一个能写出漂亮方案的模型,不一定能在外部工具失败、信息不完整、预算有限、目标变化时继续推进任务。真正进入经营层之后,AI 的短板会从“答案不够好”变成“流程是否可靠”。

国产算力的底座

美团 LongCat-2.0 的意义,正好补上了这条主线的底层部分。它依托超 5 万张国产算力卡完成万亿参数 MoE 模型训练与推理全流程,被称为国内首个全栈国产算力的万亿大模型。如果说 Matrix 展示的是 Agent 应用形态,那么 LongCat-2.0 展示的就是应用背后的模型和算力底座正在发生变化。

万亿参数模型不再只是论文和榜单里的概念,它直接关系到 Agent 能否处理长任务、复杂代码、跨工具操作和多轮协作。更重要的是,国产算力完成训练和推理闭环,意味着模型能力不必完全绑定在少数外部芯片和云服务上。对于要把 Agent 放进企业核心流程的公司来说,算力可获得性、成本稳定性和部署确定性会越来越关键。AI 要从演示走向业务系统,底座必须足够可控。

GeForce RTX GPU inside a computer case for AI inference and Agent computing
模型、算力和多 Agent 协作正在共同决定 AI 产品能否进入真实业务流程。

协作网络开始成形

同一批资讯里,明略科技 Octo 的方向也很值得放在一起看。它面向企业组织场景,尝试聚合分散 Agent,支持多种协作模式,并沉淀组织偏好数据。这个思路与 Matrix 有相似之处:未来企业不会只有一个万能 Agent,而会拥有许多负责不同流程、不同部门、不同权限边界的 Agent。真正的问题不是“有没有 Agent”,而是这些 Agent 能不能互相理解、互相交接,并在组织规则下工作。

如果没有协作层,企业内部很容易出现新的 AI 孤岛。销售团队有自己的助手,客服团队有自己的助手,研发团队有自己的代码 Agent,运营团队又有独立内容工具。它们各自提升效率,却很难共享上下文和经验。Octo 这类平台试图把 Agent 连接成网络,Matrix 则把这种网络包装成可执行目标的业务系统。二者都说明,Agent 的下一步竞争不会只停留在单体模型能力,而会进入组织级编排。

记忆和自演进

一个 Agent 想长期承担工作,必须解决“失忆”问题。华为 openJiuwen 社区开源 AutoGenetic Memory,强调跨会话不丢记忆,并在测评中提升准确率、降低 Token 消耗。这类技术看起来没有模型发布那么热闹,却可能是 Agent 走向真实工作的关键。员工之所以能持续进步,是因为会记住项目背景、客户偏好、历史决策和失败经验;Agent 如果每次都从零开始,就只能停留在临时劳动力。

AReaL 2.0 则把重点放在自演进训练上,让已部署 Agent 能把真实交互数据转化为训练材料。它回答的是另一个问题:Agent 如何越用越好。传统软件迭代依靠产品经理、工程师和用户反馈,AI Agent 则需要把工作过程本身变成学习素材。记忆负责保存经验,自演进负责把经验转成能力,这两者合在一起,才可能让 Agent 从“会执行指令”走向“能积累方法”。

商业化会更残酷

Base44 推出自研氛围编程模型 Base1,原因之一是降低对外部 API 的依赖和推理成本。这条消息放在 Agent 语境里很现实:当产品调用量上升,模型成本会直接决定毛利空间。经营型 Agent 比普通聊天更容易消耗 Token,因为它要长上下文、反复调用工具、保存状态、检查结果,有时还需要多个 Agent 并行讨论。如果底层完全依赖昂贵外部模型,产品体验越好,成本压力可能越大。

这也是为什么 LongCat-2.0、Base1、Octo、AReaL 2.0 和 AutoGenetic Memory 可以被放在同一篇文章里看。它们分别对应算力自主、模型自研、协作网络、训练闭环和长期记忆。Agent 要真正承担业务,不可能只靠一个好看的前端界面,而要在底层成本、系统可靠性和组织适配上同时过关。谁能把这些环节做成闭环,谁才有机会把 AI 从“新鲜工具”推进到“日常生产系统”。

企业该看什么

对普通企业来说,“无人公司”未必马上变成现实,但它已经提供了一个判断 AI 产品的新标准。不要只看演示视频里 AI 做了多漂亮的结果,而要看它能否拆解目标、调用工具、留下过程、接住异常、保存记忆,并让人类在关键节点审核。AI 在企业里的价值,不是把人完全挤出去,而是把低价值重复环节交给机器,让人把精力放在方向判断、客户关系、风险控制和最终责任上。

更务实的做法,是先从低风险、可复盘、边界清楚的流程开始试。比如内容初稿、资料整理、客服摘要、代码审查、销售线索分析、内部知识库维护等场景,都适合引入 Agent 协作。等这些流程跑通,再逐步连接更多业务系统。Matrix 把想象力拉到了“无人公司”,但真正会先落地的,可能是一个又一个“半自动部门”:人负责目标、规则和验收,AI 负责执行、整理和迭代。

下一阶段的分水岭

Agent 产业的分水岭,正在从“谁的模型更聪明”转向“谁能把聪明变成稳定流程”。Matrix 让经营型 Agent 出现在更显眼的位置,LongCat-2.0 让国产算力训练万亿模型的可行性更清晰,Octo、AReaL 2.0 和 AutoGenetic Memory 则分别补上协作、自演进和记忆。它们共同说明,AI 的竞争正在从单点能力扩展为系统工程。

这对行业是好事,也会带来更高门槛。未来用户不会满足于“能回答”“能生成”“能写代码”,而会要求 AI 对结果负责、对流程透明、对成本可控、对数据安全有边界。无人公司也许还需要时间验证,但 AI 进入经营层这件事已经很难逆转。接下来真正值得关注的,不是谁喊出了更激进的口号,而是谁能在真实业务里把 Agent 跑稳、跑久,并让每一次执行都能变成下一次进步的基础。

© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享