Core-Mate融资后,AI Agent竞争开始进入真实操作层

Core-Mate拿到数千万元融资,最有信号意义的地方不只是“又一家Agent公司被资本看见”,而是它瞄准的方向已经从对话框外移到真实网页和App操作。过去很多AI产品停留在回答、总结、生成内容,用户仍然要自己切页面、填表单、点按钮、核对结果;GUI Agent要解决的正是这段最琐碎也最接近业务现场的距离:让AI理解屏幕、拆解目标,并直接完成操作。

这条主线旁边,商汤办公小浣熊桌面端2.0、微信AI生态接入小程序、MiniAppBench交互基准、Gemma 4-12B本地多模态SubAgent,以及AI短剧工具AniShort融资等消息也在同步升温。它们共同说明,AI应用竞争正在从“会不会说”走向“能不能办”。模型能力仍然重要,但真正决定用户是否长期留下的,正在变成操作权限、工作流稳定性、多端协同、成本控制和可验证结果。

Agent走向屏幕

Core-Mate的定位是GUI Agent平台,也就是让AI直接接手用户在网页和App里的实际操作。这个方向比普通聊天助手更难,因为它面对的不是干净的文本输入输出,而是复杂的界面状态:按钮可能会变化,弹窗可能突然出现,表单字段可能隐藏,网站也可能因为登录、权限、网络和反自动化机制改变流程。AI要完成任务,就必须同时具备视觉理解、步骤规划、异常处理和结果确认能力。

这也是GUI Agent被关注的原因。企业和个人的许多高频工作并不复杂,却高度碎片化:打开后台导出数据、把线索录入CRM、在多个系统间复制信息、检查订单状态、批量生成报表、根据规则提交申请。传统RPA可以做其中一部分,但往往依赖固定流程和稳定页面;大模型Agent如果能理解界面语义,就有机会把“固定脚本”升级成“可沟通、可调整、能处理变化”的执行助手。

真实操作才是门槛

让AI接管真实操作,看起来像是把鼠标交给模型,实际考验的是一整套工程系统。首先,模型要知道用户真正想要什么,不能把一句“帮我整理客户名单”机械理解成下载文件,而要判断数据来源、筛选条件、输出格式和后续用途。其次,Agent要在执行过程中留下可追溯的步骤,告诉用户做了什么、改了哪里、哪些地方需要确认。最后,它还要在失败时停下来,而不是为了完成任务硬点下去。

这类能力一旦进入企业,就会碰到权限和责任边界。哪些页面可以让AI操作,哪些金额、合同、隐私字段必须由人确认,哪些操作需要审批,哪些日志要长期保留,都会影响产品能不能落地。GUI Agent不是一个单纯的酷炫演示,而是企业软件、浏览器自动化、安全审计和大模型推理共同组成的系统工程。谁能把这些边界处理清楚,谁才有机会从“能演示”走到“能上线”。

办公Agent补上执行层

商汤办公小浣熊桌面端2.0的更新,也把办公Agent的竞争重点推到执行层。它强调读取本地文件、操控浏览器、自动执行工作流,这和GUI Agent的思路有相通之处:用户不再满足于让AI写一段文案,而是希望它能打开资料、理解上下文、跨应用处理任务,并在合适的时间自动完成重复工作。办公场景天然适合Agent,因为文件、网页、表格、会议纪要和业务系统本来就分散在不同入口。

但办公Agent要真正好用,不能只靠“会调用工具”。它需要记住用户的偏好,理解组织里的文件结构,区分草稿和正式材料,也要知道什么时候该给出建议、什么时候该等待确认。很多企业并不缺AI生成能力,缺的是把生成结果接入流程的人手。如果Agent能把“写、查、填、发、归档、复核”连成闭环,办公软件的价值就会从单点功能变成持续协作。

AI Agent操作网页和办公软件工作流的概念图
AI Agent正在从对话框走向网页、App和办公系统的真实执行层。

微信和小程序提供入口

微信AI生态接入小程序,是另一个值得重视的入口信号。小程序连接了大量生活服务、交易、政务、出行、零售和本地业务,如果AI能够在用户授权后操作小程序,它面对的就不只是信息问答,而是具体服务流程:查订单、约服务、改地址、提交售后、比价、下单、预约和提醒。对普通用户来说,AI的价值可能不在于“懂多少知识”,而在于能不能少点几次、少填几张表。

这也会改变开发者生态。过去应用要争夺的是用户打开频率,未来可能还要争夺AI是否愿意调用、是否容易理解、是否能安全完成操作。界面结构、API能力、授权机制和状态反馈会变得更重要。一个让人看起来漂亮但让Agent难以理解的应用,可能在AI入口时代失去部分流量;反过来,一个流程清晰、反馈明确、权限可控的小程序,更容易成为智能助手的服务节点。

基准测试追上产品野心

MiniAppBench入选ICML 2026 Spotlight,说明行业也在试图用更严肃的方式衡量“生成交互式应用”和“理解交互流程”的能力。文本回答可以用准确率、偏好投票和人工评测粗略判断,但交互式应用不一样:按钮是否能点,状态是否正确,输入是否被保存,页面逻辑是否完整,异常情况是否有处理,都会影响最终体验。评测全球模型后通过率仍然不高,也提醒大家,AI把界面做出来和把界面做可靠,中间还有很长距离。

这对GUI Agent同样重要。Agent如果要操作真实软件,就必须理解软件;如果模型连自己生成的小应用都难以保持稳定交互,那么在复杂商业系统里就更需要工具链、浏览器环境、规则约束和人类复核共同兜底。未来Agent产品的竞争,可能不会只看模型榜单分数,而会看它在真实任务中的完成率、返工率、错误恢复能力和用户可控性。

本地模型降低成本

Gemma 4-12B开源多模态模型强调较低显存需求,适合在16G显存轻薄本上运行本地多模态SubAgent,这给执行型Agent补上了另一块拼图。很多屏幕理解、截图分析、文件预处理和轻量判断任务,并不一定都要交给最贵的云端旗舰模型。本地小模型如果能承担前置识别和简单决策,云端大模型就可以集中处理更复杂的规划和推理,整体成本会更可控。

这种分层会影响Agent产品形态。一个成熟系统可能不是单模型包打天下,而是由多个模型和工具协作:本地模型负责观察界面、提取结构、处理隐私数据;云端模型负责复杂计划、长上下文推理和跨系统协调;规则引擎负责权限、审批和安全边界。用户最终看到的是一个助手,背后却是一组按成本、速度和风险分层的智能组件。

内容生产也在流程化

AniShort完成近亿元融资,显示AI短剧工具也在从单点生成走向协作平台。短剧生产不是只生成一段视频就结束,它包括选题、剧本、分镜、角色、配音、剪辑、包装、投放和数据反馈。AI如果只解决其中一个环节,价值有限;如果能把多人协作、素材管理和批量生产串起来,才可能真正改变内容团队的成本结构。

这和GUI Agent、办公Agent并不矛盾,而是同一条趋势在不同场景里的表现:AI正在从“创作一个结果”进入“组织一个流程”。外贸团队用AI工具从小询盘挖出大单,文娱公司大规模招聘AI岗位,AI互动内容产品争夺海外用户,这些消息都在说明,行业正在把AI当成生产系统,而不是新奇插件。接下来比拼的不是谁的演示更夸张,而是谁能把任务拆准、把流程跑稳、把成本降下来,并让人类始终掌握关键决策。

下一阶段拼可靠交付

把这些重点资讯放在一起看,AI应用正在进入一个更务实的阶段。GUI Agent拿融资,办公Agent上桌面,小程序开放AI入口,交互基准开始衡量真实可用性,本地多模态模型降低部署门槛,内容生产平台则证明垂直行业愿意为效率买单。它们分别站在浏览器、桌面、移动入口、模型评测、端侧算力和文娱生产线上,但共同指向同一件事:AI要走进真实任务,就必须从“生成答案”升级为“交付结果”。

真正的机会也藏在这里。用户不会因为一个Agent会说漂亮话就长期付费,却可能因为它每天能少做半小时重复操作、少错几张表、少漏一个客户、少切换几个系统而留下来。对创业公司来说,下一阶段的护城河不只是模型调用能力,而是场景理解、数据连接、权限治理、任务日志和异常恢复。AI Agent的故事正在变得不那么玄乎,也因此更接近商业化。

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享