机器人真正难的地方,从来不只是“看见”世界。视觉模型可以识别杯子、桌面、门把手和工具位置,但一只机器手要把杯子拿起来、知道力道是否过大、判断物体有没有滑落,还需要触觉反馈。Sharpa 联合清华大学等高校发布通用触觉基础模型 FTP-1,把 21 种传感器和多类具身形态接到同一套策略里,这条消息让物理 AI 的竞争焦点变得更具体:下一阶段的机器人,不仅要会看、会听、会规划,还要开始学会“摸懂”真实世界。
同一批重点资讯里,杭州 Om AI 推出端侧流式多模态模型 VLX,基点起源把“工业世界模型”用于定制化交付,General Intuition 通过游戏录像训练行动智能,RoboScience 则围绕具身智能继续推进融资与本体工程化。这些进展放在一起,说明物理 AI 正在从单点演示走向系统工程:感知、决策、触觉、数据、端侧部署和行业落地,缺一块都很难真正进入现场。
触觉补上短板
FTP-1 的核心意义,在于把触觉从“某个机器人的专用能力”推进到更通用的基础模型方向。过去很多机器人项目会针对某一种传感器、某一种机械臂或某一个任务单独训练策略,能在实验室里完成夹取、按压、滑动或装配,但一换传感器、一换夹爪、一换物体材质,效果就容易下滑。触觉数据本身也比图像和文本更难标准化:传感器形态不同,采样频率不同,信号噪声不同,力、形变、摩擦和接触面积之间的关系也复杂得多。
FTP-1 选择用 3000 小时跨 21 种传感器的数据进行预训练,并在未见传感器任务上取得更高成功率,价值就在于降低这种迁移门槛。对机器人来说,触觉不是锦上添花,而是安全和稳定操作的底层能力。没有触觉,机器手很难判断抓握是否可靠;没有触觉,柔软物品、透明物体、反光材料和易碎物品都会变成高风险对象;没有触觉,装配、护理、厨房、物流分拣等场景很难达到人类可接受的稳定性。
视觉还不够用
过去几年,多模态模型主要围绕视觉和语言快速进化,摄像头让 AI 能识别环境,语言模型让 AI 能理解任务,VLA 架构则尝试把视觉、语言和行动连接起来。但真实世界不是一张静态图片。物体会变形,表面会打滑,接触力会瞬间变化,桌面上还有遮挡、反光、灰尘和不规则边缘。只靠视觉推断,机器人很容易“看起来理解了”,真正动手时却因为缺少接触反馈而失败。
这也是触觉基础模型值得关注的原因。触觉让机器获得更细粒度的状态反馈:夹取时物体有没有偏移,推门时阻力是否异常,插拔零件时是否对准,拿起柔软物体时是否需要调整姿态。视觉负责告诉机器人“目标在哪里”,触觉则帮助它判断“动作是否正确”。当两类能力结合起来,物理 AI 才更接近可交付的工程系统,而不是只能在受控环境中展示的漂亮 Demo。
端侧模型进入现场
杭州 Om AI 发布面向物理世界的端侧流式多模态模型 VLX,也指向同一个方向:物理 AI 不能永远依赖云端大模型慢慢思考。机器人、手机、穿戴设备和工业终端往往需要低延迟反馈,尤其是移动、抓取、避障、检测和人机协作场景,一旦网络不稳定或响应过慢,就会影响安全和体验。端侧模型的价值,是把一部分感知和决策能力放到设备本地,让 AI 更快地理解环境变化。
端侧能力与触觉模型并不冲突,反而会互相放大。触觉传感器会产生连续信号,机器人需要在接触瞬间快速判断是否调整力道;视觉流也需要持续处理,判断目标是否移动、姿态是否变化。真正可用的物理 AI 系统,可能不会只依赖一个巨大云端模型,而会采用云端大模型负责规划与知识、本地模型负责实时感知与控制、触觉模型负责接触反馈的分层架构。这样既能保留智能水平,又能满足现场响应速度。

产业落地开始分层
基点起源提出“工业世界模型”,声称用 AI 系统把传统百人级定制化项目压缩到更短交付周期,这类消息说明物理 AI 的商业化不只发生在人形机器人身上。工业现场有大量重复但非标准的任务,例如设备巡检、产线调试、流程建模、异常识别、方案生成和系统集成。它们不像消费级机器人那样容易出圈,却更接近企业愿意付费的真实需求。
General Intuition 通过游戏录像训练 AI 学习行动规律,也提供了另一个视角。游戏世界虽然是虚拟环境,但里面包含长期目标、即时反馈、动作选择和策略调整,适合训练行动智能的底层能力。未来这些能力可以外溢到机器人、NPC、自动驾驶仿真和复杂任务规划中。RoboScience 围绕具身智能大模型与本体继续推进,也说明资本和产业都在寻找可复制的物理 AI 路径。行业不再只问“机器人能不能走两步”,而是追问它能不能在稳定成本下完成可验证任务。
数据成为护城河
物理 AI 最大的难题之一,是高质量数据远比文本和图片更稀缺。互联网天然积累了海量文字、图像和视频,但机器人触觉、真实操作轨迹、工业流程数据和多传感器同步数据,需要设备、场地、任务设计和人工校验共同生成。谁能持续积累跨设备、跨场景、跨任务的数据,谁就更容易训练出可迁移的模型,也更容易形成长期壁垒。
触觉数据尤其如此。它不是简单给图片打标签,而是要记录接触过程中的连续变化,并和动作、视觉、任务结果绑定起来。3000 小时触觉数据听起来不如互联网文本那样庞大,但在具身智能领域已经具备明显工程价值。随着传感器成本下降、机器人部署增加、仿真与真实数据混合训练成熟,触觉和行动数据会成为下一阶段竞争的关键资产。
应用会先从窄场景突破
尽管物理 AI 的方向令人兴奋,但它不会一夜之间变成通用机器人。更现实的路径,是先在任务边界清晰、ROI 明确、容错机制完善的窄场景里落地。例如工厂分拣、仓储搬运、实验室自动化、医疗辅助、设备巡检、零件装配和家庭中的有限辅助任务。这些场景对触觉、视觉和行动能力都有需求,但可以通过流程设计降低开放世界的不确定性。
对企业用户来说,判断物理 AI 项目的关键不只是模型论文有多亮眼,还要看数据来源是否可靠、硬件维护成本是否可控、异常处理是否完备、部署后能否持续学习,以及系统能否和现有业务流程融合。FTP-1、VLX、工业世界模型和行动智能训练共同传递出的信号是:AI 正在向真实世界靠近,但真正有价值的不是单个炫技能力,而是能在现场长期稳定工作的完整系统。
下一步看交付
如果说语言模型的早期竞争主要比谁会回答,物理 AI 的竞争就会更快进入“谁能交付”。机器人拿错一个物体、夹碎一个零件、延迟一次响应,都可能带来直接成本;工业系统误判一次流程,也可能影响产线效率。触觉基础模型的出现,让行业看到了补齐真实操作短板的可能,但从模型到产品,还需要硬件可靠性、数据闭环、控制算法、边缘部署和安全机制一起成熟。
这也是本轮资讯最值得关注的地方:物理 AI 不再只是把大模型装进机器人,而是开始围绕真实世界的复杂反馈重新搭建技术栈。会看只是第一步,会摸、会动、会复盘、会在现场稳定工作,才是下一阶段的门槛。随着触觉、端侧多模态、世界模型和行动数据不断汇合,AI 从屏幕走向现场的速度会越来越快,但赢家大概率属于那些把模型能力变成可维护、可验证、可复制交付的人。











