如果把这批最新资讯放在一起看,最有意思的变化不是某一个模型又刷了榜,而是 AI 正在同时向两个方向加速:一边钻进物理世界,变成空间相机、机器人世界模型和消费硬件;另一边继续渗透组织内部,变成产品经理、Agent 工作流和内容生产系统。竹马创新把 3DGS 技术做成消费级空间相机,并在成立不久后完成天使+轮融资,正好把这条主线推到台前:AI 不再只是在屏幕里生成文字、图片和视频,它开始试图捕获三维世界,并把真实环境转化为可编辑、可计算、可复用的数据资产。
这和智元 GE 2.0 拿下 WorldArena 世界模型总分冠军、自变量机器人发布事件级预测具身智能世界模型 WALL-WM、字节小云雀短剧 Agent 升级、阶跃星辰发布 Step 3.7 Flash 放在一起看,会得到一个更清楚的判断:AI 行业的竞争重心正在从“谁能生成内容”转向“谁能理解场景、驱动流程、控制成本并进入真实业务”。空间相机、机器人仿真、Agent 模型和内容生产工具看似分散,其实都在回答同一个问题:AI 如何从一次性输出,变成可以持续工作的系统。
空间相机走向消费级
竹马创新的看点在于,它瞄准的不是传统相机升级,而是把三维空间捕获变成普通消费者能够使用的能力。过去要完成相对高质量的 3D 扫描,往往需要昂贵设备、复杂流程和较高技术门槛。竹马创新采用 3DGS 技术,希望让用户像拍照一样捕获三维世界,并把原本数万元级别的扫描设备成本压到普通用户可以承受的范围。如果这个方向跑通,空间内容生产就会从专业工具走向大众入口。
这类产品的价值不只在“拍得更立体”。对电商、家装、游戏、教育、文旅、短视频和空间社交来说,三维数据意味着新的素材形态。一个房间、一件商品、一个展位、一次线下活动,都可能被快速采集成可交互资产,再交给 AI 做编辑、重建、渲染或生成。过去 AIGC 主要围绕文本、图片、视频展开,空间相机如果降低采集门槛,就等于给 AI 增加了面向真实世界的输入层。
这也是融资信号值得关注的原因。AI 硬件过去经常陷入“概念热、使用弱”的尴尬,用户买回去后不一定形成高频场景。但空间相机不同,它背后连接的是内容生产、三维建模和现实世界数字化。只要成本足够低、体验足够简单、生成效果足够稳定,就有机会从创作者工具扩展到普通消费场景。AI 进入物理世界,未必一开始就靠机器人,也可能先靠更轻量的空间采集设备。
世界模型进入机器人现场
智元 GE 2.0 在 WorldArena 世界模型评测中取得总分冠军,核心意义在于机器人训练正在越来越依赖虚拟环境。真实世界试错成本高、速度慢、风险大,而世界模型可以构建仿真场景,让机器人策略在虚拟环境中自主试错、迭代,再迁移到真实世界。对机器人公司来说,这不是锦上添花,而是能否规模化部署的关键环节。
自变量机器人发布的 WALL-WM 则把问题推得更细。它强调“事件级预测”,不再只是逐帧预测画面,而是按语义事件理解环境变化,跳过大量冗余帧,提升机器人跨场景适应能力。机器人真正进入家庭、工厂、仓储、医疗或商业空间时,面对的不是规整的视频帧,而是连续发生的动作、意图、障碍和异常。世界模型如果只看像素变化,很容易被表面信息拖累;如果能理解事件,就更接近机器人决策所需要的环境表征。

这两条消息和竹马创新的空间相机形成了呼应:前者关心机器人如何在环境中学习,后者关心真实空间如何被低成本采集。一个负责训练和预测,一个负责输入和建模。未来如果消费级空间设备、仿真世界模型和具身智能算法进一步结合,机器人可能不再完全依赖人工搭建场景数据,而能从更丰富的现实空间采集中获得训练素材。
Agent模型继续降本
阶跃星辰发布 Step 3.7 Flash,重点放在 Agent 工作流的轻量和高效上。它采用总参数 196B、推理仅激活 11B 的设计,速度达到 400 TPS,支持 256K 上下文,并强调原生多模态和完整 Agent 能力。这里最关键的不是参数数字本身,而是模型厂商正在把 Agent 的成本问题摆到明面上。过去很多 Agent 演示看起来很强,但一旦进入高频使用,token 消耗、推理延迟和上下文成本就会迅速放大。
企业真正部署 Agent,不会只看单次回答是否惊艳,而会算一套更现实的账:一个流程每天跑多少次,平均要调用多少工具,失败后是否需要重试,多智能体协作会不会把成本放大数倍,长上下文能否稳定复用业务资料。Step 3.7 Flash 这类模型如果能在速度、上下文和成本之间取得平衡,就可能更适合客服、运营、研发协作、文档处理、数据分析等重复任务。
这也解释了为什么 AI 竞争不再只是旗舰模型之间的性能战争。旗舰模型负责拉高能力上限,轻量模型和专用模型负责把能力送进日常流程。对于企业来说,真正可持续的 AI 系统往往是多模型组合:复杂判断交给强模型,标准化流程交给轻量模型,视觉、语音、代码、检索分别由不同组件处理。Agent 的普及不是靠单个模型包打天下,而是靠成本结构足够健康。
内容生产变成流程系统
字节旗下小云雀短剧 Agent 升级 2.0,也说明内容生产工具正在从单点生成走向流程化。它新增剧本联动画布和影视级风格生成能力,用户只需要输入一句话提示词,就能完成从剧本生成、资产拆解到分镜合成的短剧制作。实测中,30 分钟、约 200 元就能生成一部两分多钟短片,这个数字不一定代表最终工业质量,但足以说明内容生产门槛正在被快速压低。
过去的视频 AI 工具多停留在“生成一个镜头”或“把一段画面变得更好看”,而短剧生产需要的是连续流程:故事结构、人物设定、场景资产、镜头语言、分镜节奏、风格一致性和后期合成。小云雀把这些步骤串起来,本质上是在把内容团队的一部分工作流产品化。它不只是帮创作者省一个镜头,而是试图重组从创意到成片的路径。
TapNow 携 AI 短片亮相戛纳,并通过艺术装置和黑客松连接全球 AI 创作者社群,则说明 AI 影像正在从技术尝鲜进入表达和社群阶段。当 AI 生成视频能够承载情绪、叙事和风格,创作者关心的问题就会从“能不能生成”转向“能不能形成作品”。这会带来新的争议,也会带来新的分工:导演、编剧、美术、剪辑和提示词设计之间的边界会继续变化。
产品人才和组织效率升温
字节跳动成为 AI 时代产品经理热门选择,是另一条值得注意的组织信号。豆包 DAU 两年半破 1 亿,月活达到 2.27 亿;火山引擎 MaaS 市场份额居前。这些数字背后说明,AI 产品竞争并不只取决于模型能力,还取决于产品迭代、分发渠道、数据反馈和组织执行速度。一个强模型如果没有合适入口,很难形成用户习惯;一个产品组织如果能快速试错,就可能把模型能力转化为高频功能。
AI 产品经理的角色也因此发生变化。过去产品经理更多围绕需求、流程、交互和增长工作,现在还要理解模型边界、评测方法、数据闭环、成本控制和安全策略。比如一个 AI 助手功能,不只是设计聊天框,还要决定何时调用模型、调用哪个模型、如何处理失败、如何让用户信任结果、如何避免成本失控。这些判断越来越像产品、工程和算法之间的交叉岗位。
王慧文所说的 AI 聚集区,以及北京海淀、旧金山 SoMa 等创业密度极高的区域,也从侧面说明资源密度仍然重要。AI 工具让远程协作更容易,但顶级人才、资本、客户、算力和经验仍会向少数高密度区域聚集。越是变化快的行业,面对面交流越容易形成关键判断。AI 并没有消灭地理位置,反而可能让高密度创新区域的优势更明显。
AI硬件仍在寻找入口
智谱 AI 自研多款硬件产品,并携手早教代工厂布局终端,说明基础模型公司仍在尝试把能力带到设备端。ZAI-P1 获得电信设备进网试用证,意味着它至少在通信性能检测和接入资质上向前走了一步。对大模型公司来说,硬件的诱惑很明显:如果只做 API 或 App,容易受制于平台入口;如果能掌握终端,就有机会直接触达用户场景。
但 AI 硬件的难点也同样明显。硬件不是把模型塞进设备就结束,它还要面对供应链、成本、功耗、售后、隐私、场景刚需和长期留存。过去不少 AI 设备声量很高,但用户最终发现手机也能完成大部分功能。智谱这类公司进入硬件市场,需要证明的不只是模型能力,而是设备形态本身不可替代:它是否比手机更自然,是否能在特定场景中持续使用,是否能形成稳定数据闭环。
和空间相机相比,通用 AI 硬件更容易陷入场景模糊;但如果落在早教、陪伴、翻译、办公记录、空间采集、机器人控制等具体场景,就可能找到突破口。AI 硬件的下一阶段大概率不是一个万能设备横扫市场,而是多个垂直设备先验证价值,再逐步整合能力。
三维化和系统化成为主线
综合这些资讯,AI 行业正在出现一个清晰方向:内容三维化、机器人世界模型化、Agent 系统化、硬件场景化。竹马创新代表低成本空间采集,智元和 WALL-WM 代表机器人环境理解,Step 3.7 Flash 代表 Agent 降本,小云雀和 TapNow 代表内容生产流程化,智谱硬件和字节产品组织则代表入口与执行力竞争。这些变化共同说明,AI 不再满足于“生成一个结果”,而是在争夺现实世界的数据入口和任务闭环。
接下来真正值得观察的,不是某个 Demo 有多酷,而是这些系统能不能稳定进入日常使用。空间相机要证明普通用户愿意采集三维世界;世界模型要证明机器人能在真实环境中少犯错;Agent 模型要证明成本可控;短剧工具要证明作品质量和商业回报;AI 硬件要证明自己不是手机 App 的替代壳。只有当这些问题被逐步解决,AI 从屏幕走向物理世界才不只是口号,而会变成新的产业分水岭。












暂无评论内容