多模态模型共3篇
字节开源多模态模型 Mamoda2.5,视觉 AI 正在从生成图片走向可交付内容生产-速维云

字节开源多模态模型 Mamoda2.5,视觉 AI 正在从生成图片走向可交付内容生产

字节 Mamoda2.5 开源、Luma API 开放、AI 游戏和世界模型升温,视觉 AI 正在从单次生成走向内容生产闭环。
svyun的头像-速维云svyun1个月前
04212
Luma开放图像API,开源多模态模型把视觉AI推向内容生产线-速维云

Luma开放图像API,开源多模态模型把视觉AI推向内容生产线

Luma Uni-1.1 API、字节 Mamoda2.5 和阿里 PromptEcho 同时出现,说明视觉 AI 正从单张生成走向可调用、可控、可批量交付的内容生产线。
svyun的头像-速维云svyun1个月前
02912
触觉基础模型来了,物理AI开始从看见世界走向摸懂世界-速维云

触觉基础模型来了,物理AI开始从看见世界走向摸懂世界

机器人真正难的地方,从来不只是“看见”世界。视觉模型可以识别杯子、桌面、门把手和工具位置,但一只机器手要把杯子拿起来、知道力道是否过大、判断物体有没有滑落,还需要触觉反馈。Sharpa ...
svyun的头像-速维云svyun6天前
245