多模态模型-速维云

字节开源多模态模型 Mamoda2.5，视觉 AI 正在从生成图片走向可交付内容生产

字节 Mamoda2.5 开源、Luma API 开放、AI 游戏和世界模型升温，视觉 AI 正在从单次生成走向内容生产闭环。

svyun1个月前

04212

Luma Uni-1.1 API、字节 Mamoda2.5 和阿里 PromptEcho 同时出现，说明视觉 AI 正从单张生成走向可调用、可控、可批量交付的内容生产线。

svyun1个月前

02912

机器人真正难的地方，从来不只是“看见”世界。视觉模型可以识别杯子、桌面、门把手和工具位置，但一只机器手要把杯子拿起来、知道力道是否过大、判断物体有没有滑落，还需要触觉反馈。Sharpa ...

svyun6天前

245