通义千问把 Qwen 3.7 Max 预览版推到台前,意义不只是一款国产大模型继续刷榜。更关键的是,阿里正在把文本、视觉、云服务和企业落地放到同一条产品线上迭代:模型更新节奏缩短,AI 云市场份额继续领先,开发者和企业客户能更快拿到可用能力。这让国产大模型竞争从“单次发布会”变成了持续交付能力的较量。
同一批重点资讯里,世界模型、Agent 底盘工程、长上下文架构、AI 数据中心电力需求也同时升温。它们表面上分属模型、应用、基础设施和能源,实际指向同一个趋势:AI 公司正在从卖模型、卖 token,转向卖稳定结果、卖工作流、卖可验证的生产力。
Qwen 3.7 加速
阿里通义千问推出 Qwen 3.7 系列两款预览模型,文本与视觉领域均冲到 Arena 榜单国产第一。相比单纯强调某个 benchmark 的名次,更值得关注的是迭代速度:Qwen3 系列之后,大版本节奏被压缩到每两三个月一次。这意味着模型团队已经进入持续工程化阶段,不再只靠半年级别的大版本制造声量。
对企业用户来说,快迭代本身既是机会也是压力。机会在于模型能力、视觉理解、复杂推理和工具调用会更快进入可用状态;压力在于应用层必须跟上模型版本变化,持续评估成本、稳定性和兼容性。过去企业采购 AI 服务,常常把“选一个模型”当成决策终点,现在更像是在选择一个长期演进的模型生态。
这也解释了为什么阿里云 AI 云市场份额同样重要。Omdia 报告显示,2025 年中国 AI 云市场总规模达到 567 亿元,阿里云以 38.1% 的份额稳居第一,收入超过 216 亿元,份额超过第二到第四名总和。模型本身决定上限,云基础设施、推理服务、开发者生态和企业交付能力决定它能不能真正跑进业务系统。
国产大模型竞争正在形成“模型能力 + 云服务 + 企业入口”的组合战。Qwen 3.7 Max 预览版如果继续在文本、视觉和多模态方向保持高频迭代,阿里就不只是拿到榜单优势,而是在争夺企业 AI 应用的默认底座。对于开发者来说,这类变化也会影响 API 选型、模型网关配置、知识库接入和多模型调度策略。
架构开始省成本
另一条值得放在一起看的线索,是 LLM 架构继续围绕长上下文和推理效率进化。Google、Poolside、Zyphra、DeepSeek 等团队近期相继通过 KV 共享、压缩注意力、分层 Attention 预算等方式降低长上下文推理的计算与存储成本,其中 DeepSeek V4 在 1M 上下文下将 FLOPs 降至 27%。
长上下文曾经被简单理解为“能塞更多资料”。但在真实业务里,长上下文更接近一种系统能力:客服要读取完整工单历史,法律助手要对照大量合同,研发 Agent 要理解仓库、issue、日志和文档,办公助手要跨邮件、会议纪要、项目看板建立连续理解。上下文越长,成本、延迟和稳定性问题越明显,架构优化就越有商业价值。

伯克利等机构提出的 FST 快慢训练框架,也把问题指向持续学习。该框架通过分层机制缓解大模型持续学习中的灾难性遗忘,实验显示可减少 70% 遗忘,并将数据效率提升 3 倍。长期看,模型如果只能靠离线大训练更新,就很难真正适应企业内部不断变化的知识、流程和策略;持续学习能力越强,AI 系统越可能从“工具”变成“长期同事”。
但持续学习也带来治理问题。模型如何吸收新经验,如何避免错误经验被固化,如何保证不同客户之间的数据隔离,都会成为部署门槛。对企业来说,未来的 AI 能力评估不应只看一次性问答效果,还要看模型在连续任务中的记忆、更新、回滚和审计机制。
Agent 底盘成焦点
Agent 方向的重点不再只是“能不能调用工具”,而是底盘工程能否让任务稳定完成。CMU、耶鲁、弗吉尼亚理工和亚马逊研究团队梳理 170 余个开源项目后发布 Agent Harness Engineering 综述,提出 ETCLOVG 七层架构,并指出 Harness 是决定 Agent 可靠性的关键;在不修改模型的情况下,优化 Harness 最高可带来 10 倍性能提升。
这类观点正在被更多产品验证。DeepSeek 开放招聘 Agent Harness 产品经理,岗位会参与桌面端 Agent 产品全流程,说明模型公司已经把 Harness 当成产品化核心,而不是外围工程。王云鹤关于 Harness 的讨论也引发社区关注,本质上是在提醒行业:Agent 并不是模型自动变聪明,而是模型、工具、权限、环境、记忆和反馈机制共同组成的复杂系统。
与此同时,港中大、浙大联合论文对 Agent “记忆”提出批评,认为当前向量存储、RAG 等方案更像备忘录,而不是真正记忆。它们可以把材料找回来,却未必能把经验抽象成规则;一旦被投毒,还可能把错误信息带入后续任务。这对企业部署尤其关键,因为企业数据里既有知识,也有过期流程、历史错误和权限边界。
滑铁卢大学关于多 Agent 协作的研究则进一步泼了冷水:22500 次实验发现,多 Agent 协作可能降低模型推理能力,出现类似人类“旁观者效应”的问题。行业早期常把多 Agent 视为天然增强,但真实结果更复杂。多个模型相互讨论,如果没有明确角色、裁决机制和任务约束,反而可能增加噪声、推诿和错误一致性。
AI 应用卖结果
商业化层面,AI 公司正在从卖 token 转向卖结果。当前 88% 企业已经常态化使用 AI,但不到 6% 企业因 AI 让 EBIT 提升超过 5%。这组反差说明,试用、接入和真正产生财务收益之间仍有很长距离。Sierra、零犀科技等公司开始探索 RaaS 模式,按 AI 产生的业务结果收费,正是为了把“能力演示”变成“业务承诺”。
Lucius 创始人赵赫把 AI 员工定义为一份有 SLA 的劳动合同,也很能代表企业市场的新方向。企业真正愿意付费的,不是一个会聊天的模型,而是一个有职责边界、响应标准、可追责结果的数字岗位。客服、运营、销售支持、内部知识助手、数据分析助理,都需要明确什么能做、什么不能做、失败如何交接给人。
袋袋(Profy)上线全球首个 AI 专家市场,也把“经验变资产”这件事推向前台。用户可以通过自然对话把专业经验封装为数字分身,借助多智能体协同编排与专业行为图谱,实现 7×24 小时自动变现。它背后反映的是另一个趋势:AI 不只替代标准化劳动,也开始尝试复制专家判断过程。
不过专家市场能否成立,核心不在包装,而在信任。一个数字分身如果给出投资、医疗、法律、企业管理等建议,就必须回答来源、边界、责任和更新机制。未来这类产品可能会先在低风险场景中跑通,比如内容咨询、课程答疑、软件使用指导、行业经验问答,再逐步进入更高价值但监管更强的领域。
世界模型与具身智能
世界模型方向也出现了更具娱乐性的突破。Odyssey 发布 Agora-1,实现多人联机 FPS 游戏,最多 4 名玩家可以在同一个 AI 生成世界中实时对战,并致敬《黄金眼》经典玩法。过去世界模型更多停留在演示视频和单人探索,现在进入多人同步交互,说明实时一致性、环境反馈和玩家行为响应正在成为关键指标。
如果世界模型可以稳定生成可交互环境,游戏只是第一个显眼入口。更远一点看,它也可能服务影视预演、机器人仿真训练、自动驾驶场景生成、工业流程模拟和教育实验。真正困难的是一致性:玩家走过的房间能否保持结构,物体状态能否延续,多人看到的世界是否同步,这些问题决定世界模型是玩具还是平台。
具身智能方面,摩尔线程发布国内首个全栈国产具身智能仿真平台 MT Lambda,打通“大模型训练—仿真模拟—端侧部署”链路,仿真吞吐效率提升约 30 倍,物理参数仿真准确度达到 99% 以上。机器狗小飞在仿真中训练后,可以迁移到真实物理世界执行复杂动作。这类平台的价值,在于降低机器人训练对真实场地、硬件损耗和人工标注的依赖。
鲸跃动力获得星海图领投的数千万元种子轮融资,也说明资本仍在寻找具身智能落地路径。它强调“数据 + 模型 + 末端执行”的 Robo Labor 方案,面向高危重复作业和制造物流场景。相比通用人形机器人的宏大叙事,工业和物流里的局部替代更容易验证 ROI,也更符合企业对安全、稳定和成本的要求。
算力背后的电力账
AI 基础设施的压力正在从 GPU 扩展到电力。NextEra Energy 宣布以 670 亿美元收购 Dominion Energy,成为美国最大公用事业并购案,核心动因是 AI 数据中心爆发带来的电力需求激增。过去谈 AI 基础设施,行业最常讨论芯片、服务器和机房;现在电网、输电、冷却和能源合同同样进入主舞台。
能量桥科技完成新一轮融资,研发预制化超导能源模块,目标是实现数据中心输电零损耗,并推进 1MW 级示范工程。无论最终路线如何,数据中心能源效率都会成为 AI 成本结构的重要变量。模型越大、调用越频繁、实时应用越多,能耗就越不可能只是后台问题。
AMD 在中国举办 AI 开发者大会,苏姿丰带队展示 ROCm 与开源生态,也透露出算力生态竞争的另一面。英伟达之外,越来越多厂商试图通过硬件、软件栈和开发者工具争夺 AI 工作负载。对企业来说,多芯片、多云、多模型并存会提高选择空间,但也会带来适配、迁移和运维复杂度。
所以,这批资讯放在一起看,AI 产业正在进入更现实的阶段:模型要更强,也要更便宜;Agent 要能执行,也要可控;应用要会演示,也要背 KPI;数据中心要扩张,也要解决电力账。接下来真正拉开差距的,可能不是谁先喊出 AGI,而是谁能把模型、基础设施、应用流程和商业结果持续稳定地连起来。











暂无评论内容