Codex反超预期升温，AI竞争从模型榜单打到终端和基础设施-速维云

OpenAI 的 Codex 更新预期和 GPT-5.6 传闻再次把开发者入口推到聚光灯下，但这一次，真正值得盯住的不是单个模型会不会在榜单上反超，而是整条 AI 产业链正在围绕“更强的 Agent、更便宜的推理、更贴近真实设备的入口”重新排队。Claude Opus 4.8 在 AGI Ranker 编程榜领先，OpenAI 则被市场期待用 Codex 更新和新模型回应；与此同时，苹果准备把更强端侧 AI 推进 iPhone，Alphabet 拟筹集 800 亿美元继续扩张 AI 基础设施，国产芯片和 Agent 基础设施公司也在融资。几条消息放在一起看，AI 竞争已经从“谁的模型更会说”变成“谁能把模型、终端、算力和企业流程串成可用系统”。

AI 竞争正在从模型榜单延伸到开发者入口、终端设备和算力基础设施。

这对普通用户和企业用户都有直接影响。开发者看到的是代码助手、手机远程 Agent、自动化测试和多端协同工具的快速升级；企业看到的是 Token 成本、数据安全、工作流接入和部署方式的重新计算；消费者看到的则是手机、潮玩硬件、浏览器仿真平台和营销工具开始塞进越来越具体的 AI 能力。AI 不再只待在网页聊天框里，它正在进入手机系统、办公软件、工业机器人、医疗流程和云基础设施。

Codex 压力变大

AGI Ranker 最新编程榜里，Anthropic 的 Claude Opus 4.8 以 81.01 分登顶，领先 OpenAI GPT-5.5 约 3.5 分。榜单分数本身未必能完全代表真实开发效率，但它释放了一个清晰信号：AI 编程助手已经进入高强度正面竞争阶段，模型不仅要能补全代码，还要能理解复杂仓库、执行多步骤任务、调用工具、处理报错，并在较长周期的开发任务里保持上下文稳定。

OpenAI 被市场期待推出 Codex 重大更新，并伴随 GPT-5.6 的发布预期。这种期待背后，是开发者入口的重要性正在上升。代码场景天然高频、付费意愿强、结果可验证，也最容易和企业内部系统、云资源、知识库、自动化脚本连接起来。一旦 Codex 能在可靠性、终端控制、多文件修改和任务追踪上继续推进，OpenAI 就不只是发布一个更强模型，而是在争夺“开发者每天打开的工作台”。

Anthropic 的优势也不容忽视。Claude 在代码助手、长上下文和企业协作场景里已经积累了相当强的心智，近期又被曝向美国 SEC 秘密递交 S-1 招股书，试图接受公开市场检验。对企业客户来说，模型厂商是否能长期稳定供应、是否有足够算力、是否能承受合规和财务审计，都会影响采购决策。AI 编程竞争因此不只是技术榜单竞争，也是资本、算力和企业信任的综合竞争。

手机成新入口

苹果 iOS 27 的提前信息显示，AI 将成为下一代系统升级重点，包括增强 Siri、为多款系统应用加入 AI 功能，并继续强调本地端侧运行能力。苹果的特点不是最早展示模型能力，而是擅长把能力压进系统级体验里：相册、信息、邮件、日历、备忘录、搜索、辅助功能，一旦这些入口被 AI 改造，用户感知会比单独打开一个聊天应用更自然。

端侧 AI 的意义不止是“离线可用”。它还关系到隐私、延迟、成本和入口控制。模型在手机本地处理一部分任务，可以减少云端推理成本，也能降低敏感数据上传带来的顾虑。对于苹果来说，Siri 如果能真正理解上下文、跨 App 操作、结合个人数据完成任务，iPhone 就会从应用容器进一步变成个人 Agent 的运行底座。

这种趋势也会反过来影响模型公司。过去模型厂商可以直接通过网页、App 和 API 触达用户；但当手机系统、浏览器、办公套件和操作系统都内置 AI 后，模型能力可能会被封装进更上层的入口。谁能成为默认模型，谁能被端侧硬件高效运行，谁能在隐私和功耗约束下保持体验，都会成为下一轮竞争变量。

基础设施继续加码

Alphabet 拟筹集 800 亿美元用于 AI 项目，是这一轮 AI 基础设施竞赛的代表性信号。大模型训练、推理、搜索重构、广告系统升级、企业云服务和端侧生态都需要长期投入。相比一次模型发布，800 亿美元级别的融资和资本开支更能说明问题：头部公司已经默认 AI 不是短期产品线，而是未来数年核心基础设施。

算力投入的另一面是成本压力。多家公司因为 Token 成本过高而调整全面 AI 化计划，微软取消部分 Claude Code 许可，Klarna 重新招聘人工客服，Duolingo 也调整 AI 相关绩效政策。企业开始意识到，“能用 AI 做”不等于“应该全部交给 AI 做”。当单月 Token 花费可能达到极高水平时，模型调用要进入财务纪律，任务拆分、缓存、路由、小模型替代和端侧推理都会变得更重要。

国产芯片融资也正对应这个问题。墨芯人工智能完成近 10 亿元 C 轮融资，主打稀疏计算以降低 AI 推理成本，并计划推出新一代 AI 通用推理计算卡。韩国 AI 推理芯片商 XCENA 完成 1.35 亿美元 B 轮融资，强调把计算放在内存附近以减少数据传输。它们指向同一个方向：AI 规模化落地不能只靠更大模型，还要靠更便宜、更高效、更适配推理的硬件底座。

Agent 更贴近真实任务

中科院自动化所开源 MobileGym，把安卓仿真平台放进浏览器，可用于训练和评测手机 AI Agent，支持 28 个日常 App，单实例内存占用约 400MB。这个项目的价值在于，它让手机 Agent 的训练和评测更容易规模化。相比让模型在文本环境里“想象操作步骤”，真实 App 环境能暴露更多问题：按钮位置变化、页面加载延迟、权限弹窗、输入法干扰、跨 App 跳转和失败恢复。

企业级 Agent 基础设施也在融资。词元无限完成数千万元融资，定位企业级 Agent 基础设施，已获得多个千万级订单；Mind Lab 连续发布 LoRA 与 PEFT 研究进展，试图用持续学习机制支撑大量小型智能体在大底座上积累能力。这说明行业已经从“做一个能聊天的 Agent”转向“让一批 Agent 能长期稳定执行业务任务”。

这种转向会改变企业部署逻辑。真正有价值的 Agent 不是演示里完成一次酷炫操作，而是能接入权限系统、日志系统、知识库、审批流和业务软件，在失败时可追踪，在输出时可审计，在成本上可预测。未来企业选择 Agent 平台，关注点会从模型名气转向任务成功率、权限隔离、记忆机制、工具生态和运维成本。

硬件落地更谨慎

AI 硬件热度仍在，但行业开始变得更清醒。虎嗅 AI 硬件闭门会的信息指出，工业 AI 更早落地，消费级机器人早期销量可能存在行业内循环，PMF 和算力适配才是生死线。这个判断很现实：一台机器人卖出几百台，如果主要买家是同行、投资人、展厅和开发者，离真正的大众市场仍有距离。

掌阅推出 999 元 AI 潮玩 CreMoMo，内置情感大模型和抢票 Agent，但早期销量数据并不亮眼。这类产品的挑战在于，它既要证明陪伴价值，又要证明任务价值，还要在硬件成本、续航、交互体验和内容安全之间找到平衡。消费者不会因为“有 AI”就长期使用一个硬件，除非它真的解决了某个高频痛点。

机器人创业也在走向更具体的工业场景。橡木果机器人提出基于“本能”的机器人操作路线，强调无需训练数据即可实现操作，并进入工业落地；清华 AIR 推出 UniLab，让机器人强化学习训练速度提升，甚至可在 Mac 上本地运行。硬件方向的关键词正在从“像人一样聪明”变成“能不能在一个明确场景里稳定工作、快速训练、便宜部署”。

AI4S 和医疗继续升温

AI for Science 仍是资本和大厂争夺的重点。字节 Seed 团队 AI4S 核心成员顾全全离职，可能投身 AI4S 创业；深度原理团队通过 MIRA AI 科研平台递归自训练材料基座模型 MPA，在 40 项实验性质预测任务中刷新 SOTA；DataMaster 则让 AI 自动完成数据寻找、筛选、清洗和迭代优化。科研场景的共同特点是数据复杂、验证周期长，但一旦模型能提高实验效率，商业价值和社会价值都很大。

医疗方向也在继续推进。澳洲 AI 医疗公司 Facere 的案例显示，AI 医疗价值不只是生成诊断建议，更可能来自流程调度、语音助手和医疗服务链路重构；微脉的“AI+全病程管理”故事则提醒行业，医疗 AI 落地仍然卡在人、机构协作、成本结构和合规约束上。AI 可以提高效率，但医疗系统不是简单的软件市场，不能只用模型能力解释商业化结果。

这类应用的机会在于，它们不依赖用户每天主动打开 AI 产品，而是嵌入已有流程：医生接诊、患者随访、科研数据处理、材料筛选、药物验证。只要能减少重复劳动、提高准确率或缩短研发周期，AI 就有明确价值。但风险同样存在，尤其是医疗和科研场景对可解释性、责任归属和验证标准要求更高，不能把未经充分验证的输出直接当成结论。

商业化开始分层

AI 原生达人营销平台 AhaCreator 上线 3.0，入驻达人达到 10 万，覆盖 140 多个国家，并服务超过 300 家品牌。它代表了 AI 商业化中更轻、更快的一类：用 AI 自动完成达人筛选、沟通、内容匹配和投放管理，把原本高度人工的营销流程变成半自动系统。相比训练大模型，这类应用更靠近收入，也更容易被企业用效果数据衡量。

另一类商业化来自内容和创意工具。HiDream-O1-Image 登顶开源文生图模型榜，但评价存在分歧，说明图像模型竞争已经不只是看单张图效果，还要看生态、工作流、可控性和版权安全。HeyGen 推出 HyperFrames，通过 AI 写 HTML 生成视频，定位甚至不是给普通用户，而是给 Agent 使用。这意味着内容生产工具也在从“人操作软件”走向“Agent 调用工具链”。

还有一些花边新闻反而能暴露真实问题。胡彦斌用 Trae 做粉丝互动 App，却被发现存在内容审核和短信接口等安全漏洞；开发者用 Codex 做电脑清理 Skill，说明普通人已经能借助 Agent 快速做出实用工具。AI 降低了开发门槛，但也降低了把不成熟产品推向用户的门槛。未来“会做出来”会越来越容易，“做得安全、稳定、可维护”反而更稀缺。

下一步看交付质量

把这些资讯合起来看，AI 行业正在进入一个更现实的阶段：模型要继续变强，但光强已经不够；Agent 要更会做事，但必须可控、可审计、可维护；硬件要讲故事，但更要找到真实需求；基础设施要继续投入，但企业账单不能无限膨胀。无论是 OpenAI 与 Anthropic 的开发者入口之争，苹果的端侧 AI，还是 Alphabet 的基础设施加码，本质上都在回答同一个问题：AI 能不能从能力展示走向稳定交付。

接下来更值得关注的，不只是 GPT-5.6 是否发布、Codex 是否反超、Claude 是否继续霸榜，而是这些能力进入真实场景后的表现。企业会用成本、权限、成功率和安全事故来投票；开发者会用效率和可控性来投票；普通用户会用留存和付费来投票。AI 的叙事还会继续热闹，但真正决定胜负的，正在变成那些不那么炫目的工程细节。

文章版权归作者所有，未经允许请勿转载。

THE END