触觉基础模型来了，物理AI开始从看见世界走向摸懂世界-速维云

机器人真正难的地方，从来不只是“看见”世界。视觉模型可以识别杯子、桌面、门把手和工具位置，但一只机器手要把杯子拿起来、知道力道是否过大、判断物体有没有滑落，还需要触觉反馈。Sharpa 联合清华大学等高校发布通用触觉基础模型 FTP-1，把 21 种传感器和多类具身形态接到同一套策略里，这条消息让物理 AI 的竞争焦点变得更具体：下一阶段的机器人，不仅要会看、会听、会规划，还要开始学会“摸懂”真实世界。

同一批重点资讯里，杭州 Om AI 推出端侧流式多模态模型 VLX，基点起源把“工业世界模型”用于定制化交付，General Intuition 通过游戏录像训练行动智能，RoboScience 则围绕具身智能继续推进融资与本体工程化。这些进展放在一起，说明物理 AI 正在从单点演示走向系统工程：感知、决策、触觉、数据、端侧部署和行业落地，缺一块都很难真正进入现场。

触觉补上短板

FTP-1 的核心意义，在于把触觉从“某个机器人的专用能力”推进到更通用的基础模型方向。过去很多机器人项目会针对某一种传感器、某一种机械臂或某一个任务单独训练策略，能在实验室里完成夹取、按压、滑动或装配，但一换传感器、一换夹爪、一换物体材质，效果就容易下滑。触觉数据本身也比图像和文本更难标准化：传感器形态不同，采样频率不同，信号噪声不同，力、形变、摩擦和接触面积之间的关系也复杂得多。

FTP-1 选择用 3000 小时跨 21 种传感器的数据进行预训练，并在未见传感器任务上取得更高成功率，价值就在于降低这种迁移门槛。对机器人来说，触觉不是锦上添花，而是安全和稳定操作的底层能力。没有触觉，机器手很难判断抓握是否可靠；没有触觉，柔软物品、透明物体、反光材料和易碎物品都会变成高风险对象；没有触觉，装配、护理、厨房、物流分拣等场景很难达到人类可接受的稳定性。

视觉还不够用

过去几年，多模态模型主要围绕视觉和语言快速进化，摄像头让 AI 能识别环境，语言模型让 AI 能理解任务，VLA 架构则尝试把视觉、语言和行动连接起来。但真实世界不是一张静态图片。物体会变形，表面会打滑，接触力会瞬间变化，桌面上还有遮挡、反光、灰尘和不规则边缘。只靠视觉推断，机器人很容易“看起来理解了”，真正动手时却因为缺少接触反馈而失败。

这也是触觉基础模型值得关注的原因。触觉让机器获得更细粒度的状态反馈：夹取时物体有没有偏移，推门时阻力是否异常，插拔零件时是否对准，拿起柔软物体时是否需要调整姿态。视觉负责告诉机器人“目标在哪里”，触觉则帮助它判断“动作是否正确”。当两类能力结合起来，物理 AI 才更接近可交付的工程系统，而不是只能在受控环境中展示的漂亮 Demo。

端侧模型进入现场

杭州 Om AI 发布面向物理世界的端侧流式多模态模型 VLX，也指向同一个方向：物理 AI 不能永远依赖云端大模型慢慢思考。机器人、手机、穿戴设备和工业终端往往需要低延迟反馈，尤其是移动、抓取、避障、检测和人机协作场景，一旦网络不稳定或响应过慢，就会影响安全和体验。端侧模型的价值，是把一部分感知和决策能力放到设备本地，让 AI 更快地理解环境变化。

端侧能力与触觉模型并不冲突，反而会互相放大。触觉传感器会产生连续信号，机器人需要在接触瞬间快速判断是否调整力道；视觉流也需要持续处理，判断目标是否移动、姿态是否变化。真正可用的物理 AI 系统，可能不会只依赖一个巨大云端模型，而会采用云端大模型负责规划与知识、本地模型负责实时感知与控制、触觉模型负责接触反馈的分层架构。这样既能保留智能水平，又能满足现场响应速度。

触觉、端侧多模态和行动数据正在成为物理AI走向真实现场的关键环节。

产业落地开始分层

基点起源提出“工业世界模型”，声称用 AI 系统把传统百人级定制化项目压缩到更短交付周期，这类消息说明物理 AI 的商业化不只发生在人形机器人身上。工业现场有大量重复但非标准的任务，例如设备巡检、产线调试、流程建模、异常识别、方案生成和系统集成。它们不像消费级机器人那样容易出圈，却更接近企业愿意付费的真实需求。

General Intuition 通过游戏录像训练 AI 学习行动规律，也提供了另一个视角。游戏世界虽然是虚拟环境，但里面包含长期目标、即时反馈、动作选择和策略调整，适合训练行动智能的底层能力。未来这些能力可以外溢到机器人、NPC、自动驾驶仿真和复杂任务规划中。RoboScience 围绕具身智能大模型与本体继续推进，也说明资本和产业都在寻找可复制的物理 AI 路径。行业不再只问“机器人能不能走两步”，而是追问它能不能在稳定成本下完成可验证任务。

数据成为护城河

物理 AI 最大的难题之一，是高质量数据远比文本和图片更稀缺。互联网天然积累了海量文字、图像和视频，但机器人触觉、真实操作轨迹、工业流程数据和多传感器同步数据，需要设备、场地、任务设计和人工校验共同生成。谁能持续积累跨设备、跨场景、跨任务的数据，谁就更容易训练出可迁移的模型，也更容易形成长期壁垒。

触觉数据尤其如此。它不是简单给图片打标签，而是要记录接触过程中的连续变化，并和动作、视觉、任务结果绑定起来。3000 小时触觉数据听起来不如互联网文本那样庞大，但在具身智能领域已经具备明显工程价值。随着传感器成本下降、机器人部署增加、仿真与真实数据混合训练成熟，触觉和行动数据会成为下一阶段竞争的关键资产。

应用会先从窄场景突破

尽管物理 AI 的方向令人兴奋，但它不会一夜之间变成通用机器人。更现实的路径，是先在任务边界清晰、ROI 明确、容错机制完善的窄场景里落地。例如工厂分拣、仓储搬运、实验室自动化、医疗辅助、设备巡检、零件装配和家庭中的有限辅助任务。这些场景对触觉、视觉和行动能力都有需求，但可以通过流程设计降低开放世界的不确定性。

对企业用户来说，判断物理 AI 项目的关键不只是模型论文有多亮眼，还要看数据来源是否可靠、硬件维护成本是否可控、异常处理是否完备、部署后能否持续学习，以及系统能否和现有业务流程融合。FTP-1、VLX、工业世界模型和行动智能训练共同传递出的信号是：AI 正在向真实世界靠近，但真正有价值的不是单个炫技能力，而是能在现场长期稳定工作的完整系统。

下一步看交付

如果说语言模型的早期竞争主要比谁会回答，物理 AI 的竞争就会更快进入“谁能交付”。机器人拿错一个物体、夹碎一个零件、延迟一次响应，都可能带来直接成本；工业系统误判一次流程，也可能影响产线效率。触觉基础模型的出现，让行业看到了补齐真实操作短板的可能，但从模型到产品，还需要硬件可靠性、数据闭环、控制算法、边缘部署和安全机制一起成熟。

这也是本轮资讯最值得关注的地方：物理 AI 不再只是把大模型装进机器人，而是开始围绕真实世界的复杂反馈重新搭建技术栈。会看只是第一步，会摸、会动、会复盘、会在现场稳定工作，才是下一阶段的门槛。随着触觉、端侧多模态、世界模型和行动数据不断汇合，AI 从屏幕走向现场的速度会越来越快，但赢家大概率属于那些把模型能力变成可维护、可验证、可复制交付的人。

文章版权归作者所有，未经允许请勿转载。

THE END