谷歌把 Computer Use 电脑操作能力内置进 Gemini 3.5 Flash 后,AI Agent 的竞争焦点又往前挪了一步:模型不只是回答问题,而是开始读取屏幕、理解界面、连续点击和输入,像一个真正坐在电脑前的执行者一样完成任务。更关键的是,这类能力不再只停留在实验室演示里,网页、桌面、移动端都被纳入目标场景,连续操作轮次也被推到更长的链路。
同一组信号里,腾讯混元开源 PhoneBuddy-4B,把手机 Agent 的真机评测继续往前推;Vida 这类客户端 Agent 直接读取屏幕上下文,尝试把会议、文档、决策和工作流串起来;Clipto.AI 则把个人数据记忆层放到端侧,让 AI 在本地理解用户的文件、笔记和资料。几条新闻连起来看,AI 应用正在从“你告诉我做什么”,走向“我看见你正在做什么,并帮你把下一步做完”。
屏幕成为新入口
过去的 AI 产品大多依赖输入框,用户需要把需求拆成文字、截图、文件或链接,再交给模型理解。这个过程看似简单,实际却把大量上下文搬运成本压给了用户:页面里哪个按钮要点、表格里哪一列要改、邮件里哪句话需要回复、后台系统里哪个字段对应业务规则,都需要人先解释清楚。屏幕操作型 Agent 的变化就在于,它开始把这些上下文直接从界面里读出来。
Gemini 3.5 Flash 加入 Computer Use 后,意义不只是“能点鼠标”。真正重要的是模型理解任务时可以结合视觉界面、控件位置、页面状态和连续反馈。一次点击后页面变了,Agent 需要重新观察;输入内容后系统报错,Agent 要判断是格式问题、权限问题还是流程问题;多轮操作里每一步都可能改变后续路径。能否在这种动态环境里保持稳定,才是操作型 Agent 从演示走向可用的分水岭。
手机Agent开始补课
桌面端之外,手机正在成为另一个关键战场。腾讯混元开源 PhoneBuddy-4B,并强调 Real+Mock 混合训练环境和真机评测成绩,说明手机 Agent 已经不满足于在截图上识别图标,而是要真正理解 App 流程、页面跳转和移动端交互习惯。手机上的任务往往更碎片化:订票、查物流、改设置、发消息、比价、填写表单,都需要跨 App、跨页面、跨账号状态处理。
这类能力的难点在于移动端环境比桌面更封闭,也更容易遇到权限、验证码、弹窗、广告浮层和不同系统版本差异。模型要做的不只是识别按钮,还要在有限屏幕空间内理解任务目标,知道什么时候继续操作,什么时候停下来让用户确认。PhoneBuddy-4B 的价值,正在于把手机 Agent 训练和评测往工程化方向推了一步,让行业有机会围绕真实设备表现,而不是只围绕静态 benchmark 讨论能力。

上下文不再只靠聊天
Vida 这类产品把“屏幕上下文”放到台前,是因为很多工作任务本来就不在聊天框里。用户可能正在看一份合同、一张数据表、一段会议纪要或一个后台仪表盘,真正有价值的信息散落在窗口、标签页、通知和历史操作里。如果 AI 只能等待用户描述,就很难准确判断当前任务处在什么阶段,也难以发现遗漏步骤。
屏幕上下文让 Agent 更像一个旁边的助理:它可以看到你在处理什么,理解当前页面里的对象,进而总结决策、生成文档或提示下一步动作。与此同时,Clipto.AI 强调端侧多模态和个人记忆层,也反映出另一个方向:AI 不只需要临时看见屏幕,还需要长期理解用户自己的资料库。文件、图片、音频、笔记、网页剪藏和历史项目如果能在本地被统一索引,AI 的回答就不再是泛泛建议,而会更贴近个人真实工作。
从工具到执行系统
操作型 Agent 的兴起,会改变软件产品的竞争方式。过去软件主要争夺的是界面、功能和用户时长;现在更重要的问题变成:这个系统能不能被 AI 稳定理解和调用。按钮命名是否清晰、流程是否一致、错误提示是否可读、权限边界是否明确,都会影响 Agent 的执行成功率。换句话说,未来的软件不仅要对人友好,也要对 AI 友好。
这也是 OpenRouter 这类“模型中转站”受到关注的原因之一。企业真正部署 Agent 时,往往不会只依赖一个模型,而是需要在成本、延迟、能力、稳定性和合规之间做调度。屏幕操作、手机任务、文档处理、代码生成和客服流程可能适合不同模型。统一接口、模型路由和成本管理会成为底层能力,Agent 的表面体验越自然,背后的调度系统就越复杂。
安全边界会更硬
一旦 AI 能操作电脑和手机,安全问题也会从“回答是否准确”升级为“动作是否可控”。错误回答最多误导用户,错误点击可能提交订单、删除文件、发送消息、修改配置甚至触发资金流转。所以谷歌在 Computer Use 中加入安全约束机制并不意外,操作型 Agent 必须区分普通浏览、低风险填写和高风险确认,并在关键动作前让用户介入。
企业场景里,这道边界会更复杂。Agent 可能接触客户数据、内部报表、代码仓库和业务系统,它需要权限隔离、审计日志、可回滚机制和明确的人工确认点。对个人用户来说,也需要知道哪些数据只在本地处理,哪些内容会被上传到云端,哪些操作 AI 可以自动完成,哪些必须暂停等待确认。Agent 越接近真实执行者,产品越不能只靠一句“智能助手”概括自己的责任。
真正的竞争在工作流里
这轮 AI Agent 新闻最值得关注的地方,不是某一个产品单点爆发,而是多个方向正在同时靠近真实工作流:Gemini 负责把电脑操作能力塞进通用模型,PhoneBuddy-4B 推动手机端任务执行,Vida 把屏幕上下文变成办公入口,Clipto.AI 试图补上个人记忆层,OpenRouter 则承担多模型调度和成本管理。它们分别解决观察、执行、记忆和调度问题,合在一起才像一个完整的 Agent 系统。
接下来,用户判断 AI 产品好不好用,可能不会再只问“模型聪不聪明”,而会问它能不能少打断、少出错、少让我复制粘贴,能不能在看得见的界面里把任务一步步做完。谁能把屏幕、手机、文件、模型和权限自然串起来,谁就更可能占住下一代软件入口。AI 从聊天框走向操作层之后,竞争不会变轻,反而会更贴近每一个真实任务的细节。











暂无评论内容