OpenAI 的 Codex 更新预期和 GPT-5.6 传闻再次把开发者入口推到聚光灯下,但这一次,真正值得盯住的不是单个模型会不会在榜单上反超,而是整条 AI 产业链正在围绕“更强的 Agent、更便宜的推理、更贴近真实设备的入口”重新排队。Claude Opus 4.8 在 AGI Ranker 编程榜领先,OpenAI 则被市场期待用 Codex 更新和新模型回应;与此同时,苹果准备把更强端侧 AI 推进 iPhone,Alphabet 拟筹集 800 亿美元继续扩张 AI 基础设施,国产芯片和 Agent 基础设施公司也在融资。几条消息放在一起看,AI 竞争已经从“谁的模型更会说”变成“谁能把模型、终端、算力和企业流程串成可用系统”。

这对普通用户和企业用户都有直接影响。开发者看到的是代码助手、手机远程 Agent、自动化测试和多端协同工具的快速升级;企业看到的是 Token 成本、数据安全、工作流接入和部署方式的重新计算;消费者看到的则是手机、潮玩硬件、浏览器仿真平台和营销工具开始塞进越来越具体的 AI 能力。AI 不再只待在网页聊天框里,它正在进入手机系统、办公软件、工业机器人、医疗流程和云基础设施。
Codex 压力变大
AGI Ranker 最新编程榜里,Anthropic 的 Claude Opus 4.8 以 81.01 分登顶,领先 OpenAI GPT-5.5 约 3.5 分。榜单分数本身未必能完全代表真实开发效率,但它释放了一个清晰信号:AI 编程助手已经进入高强度正面竞争阶段,模型不仅要能补全代码,还要能理解复杂仓库、执行多步骤任务、调用工具、处理报错,并在较长周期的开发任务里保持上下文稳定。
OpenAI 被市场期待推出 Codex 重大更新,并伴随 GPT-5.6 的发布预期。这种期待背后,是开发者入口的重要性正在上升。代码场景天然高频、付费意愿强、结果可验证,也最容易和企业内部系统、云资源、知识库、自动化脚本连接起来。一旦 Codex 能在可靠性、终端控制、多文件修改和任务追踪上继续推进,OpenAI 就不只是发布一个更强模型,而是在争夺“开发者每天打开的工作台”。
Anthropic 的优势也不容忽视。Claude 在代码助手、长上下文和企业协作场景里已经积累了相当强的心智,近期又被曝向美国 SEC 秘密递交 S-1 招股书,试图接受公开市场检验。对企业客户来说,模型厂商是否能长期稳定供应、是否有足够算力、是否能承受合规和财务审计,都会影响采购决策。AI 编程竞争因此不只是技术榜单竞争,也是资本、算力和企业信任的综合竞争。
手机成新入口
苹果 iOS 27 的提前信息显示,AI 将成为下一代系统升级重点,包括增强 Siri、为多款系统应用加入 AI 功能,并继续强调本地端侧运行能力。苹果的特点不是最早展示模型能力,而是擅长把能力压进系统级体验里:相册、信息、邮件、日历、备忘录、搜索、辅助功能,一旦这些入口被 AI 改造,用户感知会比单独打开一个聊天应用更自然。
端侧 AI 的意义不止是“离线可用”。它还关系到隐私、延迟、成本和入口控制。模型在手机本地处理一部分任务,可以减少云端推理成本,也能降低敏感数据上传带来的顾虑。对于苹果来说,Siri 如果能真正理解上下文、跨 App 操作、结合个人数据完成任务,iPhone 就会从应用容器进一步变成个人 Agent 的运行底座。
这种趋势也会反过来影响模型公司。过去模型厂商可以直接通过网页、App 和 API 触达用户;但当手机系统、浏览器、办公套件和操作系统都内置 AI 后,模型能力可能会被封装进更上层的入口。谁能成为默认模型,谁能被端侧硬件高效运行,谁能在隐私和功耗约束下保持体验,都会成为下一轮竞争变量。
基础设施继续加码
Alphabet 拟筹集 800 亿美元用于 AI 项目,是这一轮 AI 基础设施竞赛的代表性信号。大模型训练、推理、搜索重构、广告系统升级、企业云服务和端侧生态都需要长期投入。相比一次模型发布,800 亿美元级别的融资和资本开支更能说明问题:头部公司已经默认 AI 不是短期产品线,而是未来数年核心基础设施。
算力投入的另一面是成本压力。多家公司因为 Token 成本过高而调整全面 AI 化计划,微软取消部分 Claude Code 许可,Klarna 重新招聘人工客服,Duolingo 也调整 AI 相关绩效政策。企业开始意识到,“能用 AI 做”不等于“应该全部交给 AI 做”。当单月 Token 花费可能达到极高水平时,模型调用要进入财务纪律,任务拆分、缓存、路由、小模型替代和端侧推理都会变得更重要。
国产芯片融资也正对应这个问题。墨芯人工智能完成近 10 亿元 C 轮融资,主打稀疏计算以降低 AI 推理成本,并计划推出新一代 AI 通用推理计算卡。韩国 AI 推理芯片商 XCENA 完成 1.35 亿美元 B 轮融资,强调把计算放在内存附近以减少数据传输。它们指向同一个方向:AI 规模化落地不能只靠更大模型,还要靠更便宜、更高效、更适配推理的硬件底座。
Agent 更贴近真实任务
中科院自动化所开源 MobileGym,把安卓仿真平台放进浏览器,可用于训练和评测手机 AI Agent,支持 28 个日常 App,单实例内存占用约 400MB。这个项目的价值在于,它让手机 Agent 的训练和评测更容易规模化。相比让模型在文本环境里“想象操作步骤”,真实 App 环境能暴露更多问题:按钮位置变化、页面加载延迟、权限弹窗、输入法干扰、跨 App 跳转和失败恢复。
企业级 Agent 基础设施也在融资。词元无限完成数千万元融资,定位企业级 Agent 基础设施,已获得多个千万级订单;Mind Lab 连续发布 LoRA 与 PEFT 研究进展,试图用持续学习机制支撑大量小型智能体在大底座上积累能力。这说明行业已经从“做一个能聊天的 Agent”转向“让一批 Agent 能长期稳定执行业务任务”。
这种转向会改变企业部署逻辑。真正有价值的 Agent 不是演示里完成一次酷炫操作,而是能接入权限系统、日志系统、知识库、审批流和业务软件,在失败时可追踪,在输出时可审计,在成本上可预测。未来企业选择 Agent 平台,关注点会从模型名气转向任务成功率、权限隔离、记忆机制、工具生态和运维成本。
硬件落地更谨慎
AI 硬件热度仍在,但行业开始变得更清醒。虎嗅 AI 硬件闭门会的信息指出,工业 AI 更早落地,消费级机器人早期销量可能存在行业内循环,PMF 和算力适配才是生死线。这个判断很现实:一台机器人卖出几百台,如果主要买家是同行、投资人、展厅和开发者,离真正的大众市场仍有距离。
掌阅推出 999 元 AI 潮玩 CreMoMo,内置情感大模型和抢票 Agent,但早期销量数据并不亮眼。这类产品的挑战在于,它既要证明陪伴价值,又要证明任务价值,还要在硬件成本、续航、交互体验和内容安全之间找到平衡。消费者不会因为“有 AI”就长期使用一个硬件,除非它真的解决了某个高频痛点。
机器人创业也在走向更具体的工业场景。橡木果机器人提出基于“本能”的机器人操作路线,强调无需训练数据即可实现操作,并进入工业落地;清华 AIR 推出 UniLab,让机器人强化学习训练速度提升,甚至可在 Mac 上本地运行。硬件方向的关键词正在从“像人一样聪明”变成“能不能在一个明确场景里稳定工作、快速训练、便宜部署”。
AI4S 和医疗继续升温
AI for Science 仍是资本和大厂争夺的重点。字节 Seed 团队 AI4S 核心成员顾全全离职,可能投身 AI4S 创业;深度原理团队通过 MIRA AI 科研平台递归自训练材料基座模型 MPA,在 40 项实验性质预测任务中刷新 SOTA;DataMaster 则让 AI 自动完成数据寻找、筛选、清洗和迭代优化。科研场景的共同特点是数据复杂、验证周期长,但一旦模型能提高实验效率,商业价值和社会价值都很大。
医疗方向也在继续推进。澳洲 AI 医疗公司 Facere 的案例显示,AI 医疗价值不只是生成诊断建议,更可能来自流程调度、语音助手和医疗服务链路重构;微脉的“AI+全病程管理”故事则提醒行业,医疗 AI 落地仍然卡在人、机构协作、成本结构和合规约束上。AI 可以提高效率,但医疗系统不是简单的软件市场,不能只用模型能力解释商业化结果。
这类应用的机会在于,它们不依赖用户每天主动打开 AI 产品,而是嵌入已有流程:医生接诊、患者随访、科研数据处理、材料筛选、药物验证。只要能减少重复劳动、提高准确率或缩短研发周期,AI 就有明确价值。但风险同样存在,尤其是医疗和科研场景对可解释性、责任归属和验证标准要求更高,不能把未经充分验证的输出直接当成结论。
商业化开始分层
AI 原生达人营销平台 AhaCreator 上线 3.0,入驻达人达到 10 万,覆盖 140 多个国家,并服务超过 300 家品牌。它代表了 AI 商业化中更轻、更快的一类:用 AI 自动完成达人筛选、沟通、内容匹配和投放管理,把原本高度人工的营销流程变成半自动系统。相比训练大模型,这类应用更靠近收入,也更容易被企业用效果数据衡量。
另一类商业化来自内容和创意工具。HiDream-O1-Image 登顶开源文生图模型榜,但评价存在分歧,说明图像模型竞争已经不只是看单张图效果,还要看生态、工作流、可控性和版权安全。HeyGen 推出 HyperFrames,通过 AI 写 HTML 生成视频,定位甚至不是给普通用户,而是给 Agent 使用。这意味着内容生产工具也在从“人操作软件”走向“Agent 调用工具链”。
还有一些花边新闻反而能暴露真实问题。胡彦斌用 Trae 做粉丝互动 App,却被发现存在内容审核和短信接口等安全漏洞;开发者用 Codex 做电脑清理 Skill,说明普通人已经能借助 Agent 快速做出实用工具。AI 降低了开发门槛,但也降低了把不成熟产品推向用户的门槛。未来“会做出来”会越来越容易,“做得安全、稳定、可维护”反而更稀缺。
下一步看交付质量
把这些资讯合起来看,AI 行业正在进入一个更现实的阶段:模型要继续变强,但光强已经不够;Agent 要更会做事,但必须可控、可审计、可维护;硬件要讲故事,但更要找到真实需求;基础设施要继续投入,但企业账单不能无限膨胀。无论是 OpenAI 与 Anthropic 的开发者入口之争,苹果的端侧 AI,还是 Alphabet 的基础设施加码,本质上都在回答同一个问题:AI 能不能从能力展示走向稳定交付。
接下来更值得关注的,不只是 GPT-5.6 是否发布、Codex 是否反超、Claude 是否继续霸榜,而是这些能力进入真实场景后的表现。企业会用成本、权限、成功率和安全事故来投票;开发者会用效率和可控性来投票;普通用户会用留存和付费来投票。AI 的叙事还会继续热闹,但真正决定胜负的,正在变成那些不那么炫目的工程细节。












