宇树冲刺人形机器人第一股，端侧模型和空间感知把AI带进真实硬件-速维云

宇树科技的科创板首发事项即将进入审议阶段，这条消息把人形机器人从“视频里很热闹”的阶段，继续推向资本市场和产业交付的正面考场。公开信息显示，宇树从受理到上会只用了66天，刷新科创板审核节奏；2025年营收达到16.99亿元，人形机器人业务占比已经超过一半，初始发行市值预计至少420亿元。对AI行业来说，这不只是一个机器人公司准备上市的节点，而是“具身智能能不能成为下一类AI硬件平台”的一次集中检验。

同一批重点资讯里，机器人与端侧AI的信号非常密集：面壁智能开源MiniCPM5-1B，并称预训练框架ForgeTrain由AI编写；上海交大MINT团队用0.9B参数方案给VLA补上空间感知，真机平均成功率约90%；京东JoyInside提出让AI嵌入家居、玩具、机器人等终端；昆仑万维发布Agent模型SkyClaw，xAI则继续把Grok押向编程能力。把这些消息连起来看，AI正在从云端模型竞争，往“能跑在设备上、能驱动硬件、能进入真实场景”的方向加速。

宇树来到临门一脚

宇树科技这次最值得关注的地方，不只是“人形机器人第一股”的标签，而是它已经有了相对清晰的商业数据。2025年16.99亿元营收、人形机器人业务占比超过50%，意味着机器人不再只是一个营销展示品，而是正在贡献主要收入。相比很多仍停留在样机、发布会和概念视频里的公司，能够把人形机器人业务推到收入结构中心，本身就是产业成熟度的信号。

资本市场审议也会改变外界观察机器人公司的方式。过去大家看机器人，容易被动作流畅度、舞蹈视频、跑步速度和外观设计吸引；进入上市语境后，问题会变得更硬：客户是谁，复购在哪里，毛利率能否改善，交付规模能否扩大，售后和安全责任怎么承担。人形机器人如果要从“科技奇观”变成“生产工具”，最终必须经得起财务、供应链和场景价值的反复拷问。

这也是具身智能行业从热度走向秩序的一步。AI模型可以通过API快速分发，但机器人需要硬件制造、质量控制、传感器采购、执行器稳定性、场景适配和线下服务体系。一个机器人企业走向资本市场，本质上是在向外界证明：这个赛道不只会讲未来，也能交付产品、形成收入，并承担真实世界里的复杂成本。

具身智能拼空间感

机器人真正落地，难点并不只是让大模型“看懂图片”或“听懂指令”。上海交大MINT团队推出的Evo-Depth方案，给VLA补充空间感知能力，参数量约0.9B，真机平均成功率约90%，这个方向很关键。机器人在物理世界行动，必须理解物体距离、抓取角度、遮挡关系、桌面边界和自身运动约束；如果只有语言理解而缺少空间感，它就很容易在真实操作里失败。

这类小参数方案也提醒行业，具身智能未必总要依赖最大模型。机器人本体上的算力、功耗和延迟都有限，云端模型可以负责规划、对话和复杂推理，但现场执行往往需要更轻、更快、更稳定的感知与控制模块。0.9B参数如果能在真机任务中取得较高成功率，说明“合适的小模型+明确的任务设计”可能比盲目堆大模型更接近可部署。

对宇树这类走向规模化的公司来说，空间感、执行稳定性和任务恢复能力会直接影响商业化。客户不会只因为机器人会聊天就买单，真正的价值来自能搬运、能巡检、能服务、能在失败时恢复、能在不同环境里保持安全。具身智能的竞争，正在从“模型够不够聪明”转向“系统够不够可靠”。

人形机器人进入产业化阶段后，竞争焦点从演示效果转向硬件交付、空间感知与端侧模型协同。

端侧模型开始补位

面壁智能开源MiniCPM5-1B，并强调它可以在终端设备本地运行，同时训练框架ForgeTrain由AI编写、效果对齐英伟达Megatron且速度快10%。这条线和机器人行业关系很近。机器人、AI耳机、智能家居、车载设备和可穿戴终端，都不可能把每一次感知和反馈完全交给云端。隐私、延迟、成本和网络稳定性，会迫使更多AI能力下沉到设备本地。

端侧模型的意义，不只是“离线也能聊”。当模型跑在本地，它可以更快处理传感器信息，更低成本地响应用户动作，也更适合长期个性化。对机器人来说，本地模型可以承担唤醒、视觉预处理、简单规划、异常判断和安全限制；云端模型则处理复杂任务拆解和知识推理。未来真正好用的AI硬件，大概率不是单一大模型包打天下，而是端侧小模型、云端大模型和专用控制模型协同。

ForgeTrain由AI编写这个细节也值得单独看。它意味着AI不只在生成应用代码，也开始参与训练系统本身的工程构建。如果AI能写训练框架、优化数据管线、调度训练任务，那么模型研发的门槛和速度都会变化。机器人公司、硬件公司和垂直行业团队未必都要从零搭建完整AI基础设施，未来可能借助更自动化的训练工具，把行业数据更快变成可用模型。

AI硬件入口变多

京东JoyInside负责人提出，AI的终极形态不是停留在聊天框，而是融入家里的每一件物品。这个判断和宇树、MiniCPM5-1B、Evo-Depth放在一起看，会形成一条清晰主线：AI入口正在从手机App和网页聊天，扩散到机器人、玩具、耳机、家电、汽车和办公设备。用户未来接触AI的方式，可能不再是打开某个对话框，而是直接对一个设备、一台机器人或一个家庭场景下达任务。

这种变化会重新定义产品竞争。软件AI产品拼模型能力、价格、上下文和插件生态；硬件AI产品还要拼供应链、工业设计、续航、传感器、售后和安全。机器人尤其复杂，因为它不仅“回答”，还会“行动”。当AI进入物理世界，厂商必须处理误操作、儿童安全、家庭隐私、公共空间合规和设备故障责任，这些都不是单纯模型榜单能解决的问题。

AI硬件入口变多，也会让产业链出现更多分工。有的公司做底层模型，有的公司做端侧压缩，有的公司做机器人本体，有的公司做执行器和传感器，有的公司做场景应用。宇树如果能顺利推进资本化，它代表的是本体和产品侧；面壁、上海交大这类进展代表模型与算法侧；京东这类公司则更靠近消费终端和供应链侧。AI落地会越来越像一个生态，而不是单点模型发布。

Agent模型仍在抢工作流

虽然本轮最强主线是机器人和端侧AI，但Agent模型的竞争也没有降温。昆仑万维发布SkyClaw-v1.0和轻量版，主打原生Agent能力、兼容主流Agent框架和OpenAI接口，价格仅为主流顶尖模型一半甚至更低。UniPat实验室的SaaS-Bench则用真实SaaS办公环境和数据库校验评估Agent，结果显示头部模型表现领先，但最高分仍不足一半。一个负责“降成本供给”，一个负责“揭短评测”，共同说明Agent还在从演示走向可验证阶段。

这和机器人行业其实是同一个问题：能不能在真实任务里闭环。办公Agent需要跨App操作、读写数据库、处理权限、确认状态；机器人Agent需要理解环境、执行动作、检测失败、恢复流程。无论是软件世界还是物理世界，下一阶段的AI竞争都不再满足于生成一段漂亮回答，而是要证明任务确实完成了、结果可以检查、失败可以追踪。

xAI的Grok 5继续强化编程能力，也说明大模型公司仍然把开发者工作流视为关键入口。大量Cursor编程数据的加入，代表模型训练越来越重视真实工具使用过程。编程Agent如果能稳定交付工具，机器人和端侧AI团队也会受益，因为更强的开发工作流会加速原型、测试、部署和维护。AI产业的多个分支看似分散，底层都在追求同一件事：让模型从“会说”变成“会做”。

从演示到交付

宇树走到审议节点，给AI行业提出了一个更现实的标准：热门方向最终要接受交付检验。人形机器人过去几年拥有极高关注度，但资本、客户和用户不会永远为表演买单。真正能打开市场的机器人，需要明确解决某类任务，带来比人工或传统自动化更好的成本、效率、安全或体验。否则，再灵活的动作也只是传播素材。

端侧模型、空间感知、AI训练框架和Agent评测的集中出现，说明行业已经意识到单靠更大模型无法自动完成落地。模型要压缩到设备里，要看懂三维空间，要接入工作流，要被测试基准严格校验，还要和硬件、软件、数据、供应链一起协作。这些工程化能力听起来没有参数规模刺激，但它们才决定AI能否真正进入生产和生活。

接下来观察人形机器人，不妨少看一点“像不像人”，多看几个硬指标：是否形成稳定订单，是否有可复制场景，关键部件是否可量产，端侧模型是否足够可靠，安全机制是否经得起真实环境。AI行业已经不缺故事，缺的是能被客户反复使用的系统。宇树这一脚如果迈过去，机器人赛道会获得更强的资本信号；但真正的胜负，仍然会在工厂、家庭、仓库和服务现场慢慢分出来。

文章版权归作者所有，未经允许请勿转载。

THE END