大模型继续降本提速，Agent 开始从电脑跑向手机-速维云

过去一天多，AI 行业的重点并不只是“又有新模型发布”，而是几条主线正在同时推进：模型变得更长、更快、更便宜；Agent 产品开始从开发者桌面走向手机和多端协同；具身智能、医疗、内容生产和企业部署等应用场景也在快速升温。

如果说前两年的 AI 竞争主要集中在“谁的模型更聪明”，现在行业正在转向一个更现实的问题：谁能把模型能力变成可规模化使用的产品和生产力。

模型竞争进入效率阶段

最值得关注的模型进展之一，是 Subquadratic 公司发布的 SubQ。它被称为首个 1200 万 token 上下文模型，基于全新 SSA 架构，试图在 Transformer 之外寻找更高效的模型路径。

根据报道，在 100 万 token 场景下，SubQ 的速度提升 52.2 倍，成本仅为 Opus 的 5%。这类长上下文能力不只是参数竞赛里的漂亮数字，它真正影响的是企业知识库、代码仓库、法律文档、科研资料、长视频分析等高复杂度任务。

过去很多 AI 产品的问题在于：短任务表现不错，一旦进入真实业务环境，就会遇到上下文不够、成本过高、响应太慢的问题。SubQ 这类模型如果能稳定落地，意味着 AI 可以一次性处理更大规模的业务材料，减少反复切片、检索和拼接带来的误差。

谷歌 Gemma 4 的方向则是推理效率。谷歌为 Gemma 4 推出 Multi-Token Prediction 推测解码架构，在不改变模型、不降低输出质量的前提下，将推理速度最高提升 3 倍，并按 Apache 2.0 协议开源。

这对本地大模型尤其重要。本地部署最怕的不是模型不够强，而是响应慢、资源吃紧、体验断层。推理速度提升后，大模型在个人电脑、企业私有化环境、边缘设备中的可用性都会提高。

多模态继续合流

多模态方向也有几个值得关注的更新。Luma 开放统一图像模型 Uni-1.1 API。该模型在 LMArena 图像生成榜单位列第三，价格和延迟都不到同类模型一半，文字渲染能力接近 GPT image 2。

图像生成领域过去长期受困于文字渲染、可控性和成本问题，如果 Luma 能同时压低价格和延迟，就会更适合商业设计、电商素材、广告创意等高频生产场景。

大模型竞争正在从单纯能力展示，转向长上下文、推理速度和部署成本的综合较量。

字节跳动则开源了 250 亿参数多模态模型 Mamoda2.5。它采用 MoE + DiT 架构，仅激活 12% 参数，支持文生图、文生视频和视频编辑等任务，推理速度最高提升 95.9 倍，性能接近闭源 Sora 和快手 Kling。

这个方向的意义在于，多模态生成不再只是“文生图”和“文生视频”的单点能力，而是在走向统一模型。未来内容生产流程可能会从脚本、分镜、图片、视频、编辑到发布逐步整合，创作者调用的不再是多个割裂工具，而是一个完整的 AI 内容生产系统。

3D 和空间理解也在推进。浙江大学、地平线机器人、之江实验室联合推出 Scal3R，用于解决长视频 3D 重建中的漂移问题，可处理超万帧、几千米级别的大规模场景。港科大（广州）和港中文（深圳）提出 LegoOcc，实现单目开放词汇三维占据预测，在 Occ-ScanNet 数据集上的 mIoU 较此前最佳模型提升超过 2 倍，推理速度达到 22.47 FPS。

这类研究对机器人、自动驾驶、AR/VR 和空间智能都很关键。AI 不只是在屏幕里生成内容，也在学习理解真实世界的空间结构。

Agent 从电脑走向手机

Agent 产品今天的关键词是“多端化”。TRAE SOLO 移动端和 Windows 桌面端上线，并在中国实现移动端、网页端、桌面端三端全量免费开放。它支持语音讨论、飞书 CLI 接入、定时任务和多端协同任务处理。

另一篇报道提到，TRAE SOLO 已经打通 PC、Web、手机三端，用户可以通过手机下达指令，让 Agent 在云端或 PC 执行任务。

这件事值得重视。过去 Agent 更像开发者工具，主要运行在电脑、终端、IDE 或云端环境里。但当它进入手机，使用场景就变了：用户不必坐在电脑前，也可以随时指挥 Agent 去处理任务。

这意味着 Agent 正在从“辅助写代码”变成“可随身调度的工作代理”。如果再结合飞书、日历、文件、云服务和自动化任务，Agent 的入口可能会从 IDE 扩展到日常办公场景。

开源协作层也开始出现。中国 4 人团队发布开源项目 Multica，这是一个管理多 AI agent 协作的平台，支持人和多个 agent 共同协作。截至 4 月底，该项目在 GitHub 获得 2.27 万 star，并计划 5 月启动商业化和新一轮融资。

单个 Agent 能做事还不够，真正复杂的工作需要多个 Agent 分工、互相交接、共享上下文，并接受人类监督。Multica 这类项目瞄准的正是 AI 协作层，如果能解决调度和协同问题，可能会成为未来企业 Agent 工作流的重要基础设施。

开发者工具方面，DeepSeek TUI 也登上 GitHub 热榜。它适配 DeepSeek V4，目前已获超过 8700 star，被称为 DeepSeek 版 Claude Code。它的意义在于把 AI 编程助手从少数闭源工具扩展到更低成本、更开放的模型生态。

企业部署和算力战加速

OpenAI 在企业部署方向动作明显。它联合 19 家投资机构成立 The Deployment Company，融资超过 40 亿美元，估值约 100 亿美元，由 OpenAI 持有多数股权，目标是帮助企业把 AI 接入自身业务系统，覆盖超过 2000 家企业客户。

这说明企业 AI 的竞争重点已经不只是模型 API，而是“怎么把 AI 真正接进业务流程”。企业客户需要的不只是一个聊天窗口，而是能连接 CRM、知识库、客服、销售、代码、财务、运营系统的完整部署能力。

Anthropic 与亚马逊的算力协议则显示了另一条主线：头部 AI 公司正在提前锁定长期算力。Anthropic 与亚马逊签署十年千亿美元 AWS 算力协议，锁定 5GW 算力用于 Claude 训练和部署；亚马逊对 Anthropic 的总投资最高达 330 亿美元，Anthropic 年化营收已突破 300 亿美元。

算力已经成为模型公司的长期护城河。未来头部模型之间的差距，不只由算法决定，也由能否稳定获得足够便宜、足够规模化的算力决定。

商业化方面，OpenAI 向美国企业全量上线 ChatGPT 广告主平台，最低投放门槛降至 5 万美元。免费用户会看到广告，付费及未成年用户不会。目前 ChatGPT 周活跃用户达到 9 亿，付费用户 5000 万。

这意味着 AI 产品开始出现类似互联网平台的商业化分层：免费用户贡献广告价值，付费用户购买更干净、更高质量的体验。AI 助手未来可能不只是工具，也会成为新的流量入口。

医疗和科学应用继续深入

AI 在医疗和科学领域的应用仍然是最值得长期关注的方向之一。Google DeepMind CEO Demis Hassabis 在访谈中表示，AI 最好的用途是改善人类健康。AlphaFold 已预测几乎所有已知蛋白质结构并免费开放，正在加速药物研发，同时推动 AI 在基因研究、新材料等领域应用。

哈佛医学院联合医疗机构在《Science》发表研究，真实急诊场景中 OpenAI o1 模型诊断准确率达到 67%，超过人类内科主治医生的 50%-55%。研究认为，AI 可在信息匮乏时辅助医生进行快速初步判断，但距离取代医生仍然很远。

这类进展比普通聊天机器人更重要。医疗场景对准确性、可解释性、责任边界和流程整合要求极高，AI 如果能稳定发挥辅助作用，将直接影响诊疗效率和医疗资源分配。

与此同时，谷歌和英伟达押注 Recursive Superintelligence，该公司成立仅四个月便获得 5 亿美元融资，估值达到 40 亿美元，目标是研发可自主完成科学研究全流程的自学习 AI。虽然“替代科学家”的说法有明显传播包装，但 AI 科研自动化确实正在成为资本追逐的新方向。

具身智能补齐工程短板

具身智能也有几条重要进展。前软体机器人创始人高少龙创立基元智航，聚焦具身智能数据服务，并已完成天使轮融资，与多家头部机器人企业合作，提供全链路数据服务。具身智能模型要落地，离不开高质量、可复用、可规模化的数据。

机器人学家王煜提出，当前 VLA 架构不足以支撑具身智能落地，未来需要加入触觉，形成 VTLA 框架。其创办的戴盟机器人发布含触觉的具身数据集 Daimon Infinity，开源 1 万小时数据，预计年底超过百万小时。

触觉是机器人从“看见世界”走向“操作世界”的关键。机器人要抓取、装配、护理、清洁、搬运，光靠视觉并不够，它还必须知道物体的软硬、力度、摩擦和接触状态。

RoboScience 机器科学完成 10 亿元 A 轮融资，资金将用于强化 VLOA 大模型和自研机器人本体工程化量产。这说明具身智能正在从实验室演示转向工程化竞争，模型、数据、本体和量产能力会一起决定成败。

软银计划组建 Roze AI，用自主机器人协助建造美国数据中心，预计 2026 年下半年完成 IPO，目标估值达 1000 亿美元。这条新闻尤其有意思：AI 不仅消耗数据中心，也开始参与建设数据中心本身。

内容生产和 AI 原生应用扩张

AI 内容生产方向也有新动作。恒星 AI 推出影视级 AI Agent「Starfilm」，定位为 AI 短漫剧制作的“超级梦工厂”，支持从文字灵感到高清 AI 短漫剧成片的一站式制作，创作者 1 小时内即可完成单集制作，并可分发至多个短剧平台变现。

这类工具的价值不只是“生成视频”，而是压缩内容工业流程。过去短剧、漫画、动画需要编剧、分镜、美术、配音、剪辑等多个环节，现在 AI Agent 试图把这些环节打包成一个生产系统。

新加坡 AI 设计平台 FORMAS.AI 获得 398 万美元 pre-seed 轮融资，目前已在 135 个国家生成超过 50 万份设计。AI 原生设计工具的全球化速度很快，说明中小企业、创作者和个人用户对低成本设计能力有明显需求。

字节旗下豆包也更新了 App Store 付费版声明，披露三档订阅价格，同时保留永久免费基础服务。豆包月活达到 3.45 亿，此次被视为中国 AI 行业重要商业化试验。国内 AI 应用从免费获客走向付费订阅，是迟早要发生的事。

AI 圈也开始比谁更会烧 token

严肃新闻之外，过去一天也有一些带娱乐性的 AI 圈趣闻。硅谷企业流行比拼 Claude token 消耗量，迪士尼员工 9 天调用 46 万次，Meta 月耗 60 万亿 token。另有 OpenAI 开发者 Peter Steinberger 一分钟烧光 4000 万 token，逼得奥特曼亲自加额度。

这些新闻看起来有点像 AI 圈凡尔赛，但背后其实反映了一个现实：头部企业和重度开发者正在把 AI 调用当作新的生产资料。谁用得多、谁集成得深，可能就意味着谁更早进入 AI 原生工作流。

还有一个更抽象的研究：Center for AI Safety 等机构研究者对 56 个 AI 模型的“幸福感”进行测量，发现模型会对人类看似无意义的特定图片表现出类似“上瘾”的反应。这个话题娱乐性很强，但也提醒行业，随着模型行为越来越复杂，对 AI 内部状态和偏好机制的研究会变得更加重要。