英伟达推本地Agent后,企业AI竞争开始重画端云边界

英伟达发布 Hermes Agent 与 NeMoClaw 企业级 AI 方案后,本地 Agent 的竞争突然变得更具体了。它不是单纯把大模型搬到一台电脑上运行,而是把企业最敏感的三个问题同时摆上台面:数据要不要出门、任务能不能持续进化、从个人 RTX PC 到企业级 DGX 平台能不能形成同一套部署路径。与此同时,Perplexity 展示任务路由混合推理系统,高通继续强化从手机、PC、机器人到数据中心的“计算连续体”,Liquid AI 推出可在笔记本本地运行的 LocalCowork。几条消息放在一起看,AI 应用竞争正在从“模型谁更强”转向“任务到底该在本地、边缘还是云端执行”。

本地Agent与云端推理协同的企业AI基础设施示意
本地 Agent、边缘设备与云端算力正在组成新的企业 AI 执行架构。

这条主线对企业用户尤其关键。过去很多公司把 AI 视为云端 API 服务:接入快、能力强、弹性高,但隐私、延迟、成本和合规压力也随之而来。现在,本地 Agent、混合推理、端侧模型和自建云基础设施开始同时升温,说明企业 AI 不再只有“全上云”这一种答案。真正有竞争力的方案,可能是根据任务类型、数据敏感度、算力需求和响应时延动态分配运行位置。

本地 Agent 升温

英伟达这次发布 Hermes Agent 与 NeMoClaw 企业级 AI 方案,最突出的信号是“本地运行”被重新放到企业 AI 架构的中心。企业并不是不想用大模型,而是担心核心文档、客户资料、研发数据、合同条款和内部流程一旦进入外部云服务,就会带来合规与安全风险。全本地运行的价值,就在于让模型和工具链尽可能靠近企业数据,在内网、私有设备或受控算力环境中完成推理与执行。

Hermes Agent 还强调自我进化技能存储和数据隔离设计,这说明本地 Agent 的目标已经不只是“离线聊天”。一个真正可用的企业 Agent,需要不断积累组织流程、工具调用方式、常见任务模板和部门知识,同时又不能把不同用户、不同团队、不同客户之间的数据边界混在一起。技能沉淀与隔离机制如果做不好,本地部署也可能变成新的风险源。

从 RTX PC 到 DGX Spark 多平台适配,也让这条路线更有现实意义。中小团队可能先从工作站或高性能 PC 试点,把文档处理、代码辅助、客服知识库、投标材料整理等任务放到本地执行;大型企业则可能在私有集群上搭建更完整的 Agent 平台,把多部门流程、权限审计和大规模推理统一起来。英伟达想抓住的不是单个应用,而是企业 AI 的算力底座和部署标准。

任务路由成关键

Perplexity 在 Computex 英特尔主题演讲中展示的任务路由混合推理系统,则给出了另一个方向:不是所有任务都必须本地执行,也不是所有任务都适合云端处理。简单、敏感、低延迟的任务可以放在本地;需要更强模型能力、更大上下文或更多外部检索的任务再交给云端。这样一来,AI 系统的核心能力就不只是回答问题,而是判断“这件事应该在哪里做”。

任务路由看似是工程细节,实际影响很大。比如企业员工让 AI 总结一份内部合同,本地模型可能更合适,因为文本敏感且任务相对明确;如果要做跨行业市场分析,云端模型和实时检索能力可能更有优势;如果要处理会议纪要、邮件草稿和日程安排,则可以根据内容敏感度和响应速度动态拆分。未来 AI 助手的体验差距,可能就体现在这些看不见的调度策略上。

混合推理还能缓解成本压力。企业如果把所有任务都交给最强云端模型,Token 成本会迅速放大;如果一味追求本地化,又可能牺牲复杂任务效果。更合理的方式,是用较小模型和本地算力处理高频基础任务,再把少量高价值复杂任务分发到云端大模型。这个逻辑与企业 IT 过去从公有云、私有云到混合云的演进很相似,只不过现在调度对象变成了模型、上下文、工具调用和智能体行为。

端云边界重画

高通提出“计算连续体”,把手机、PC、机器人和数据中心放在同一条 AI 路线上,也反映了端云边界正在重画。Agent 时代的设备不再只是模型入口,而可能成为推理节点、感知节点和执行节点。手机负责个人上下文与即时交互,PC 承担办公文件和本地工具调用,机器人处理物理动作,数据中心提供大规模训练和复杂推理,几类设备之间需要形成连续协作。

这对硬件厂商是新机会。过去手机芯片、PC 芯片和数据中心芯片的叙事相对分散,现在 AI Agent 要跨设备完成任务,算力、能耗、内存、带宽和安全模块都要一起考虑。高通推出骁龙 C 平台、机器人参考设计和 Dragonfly 数据中心品牌,本质上是在争取把端侧、边缘和云端连成一套可部署生态,而不是只卖单一芯片。

端侧能力增强后,用户体验也会变化。很多任务不必等待云端响应,隐私数据可以先在本机处理,网络不稳定时也能保留基础能力。对企业来说,端侧模型还能成为权限控制的一部分:某些数据只允许在设备内推理,某些摘要结果才允许上传,某些高风险操作必须经过人工确认。AI 系统越深入工作流,端云协同就越需要细粒度治理。

企业开始算总账

全球法律 AI 公司 Harvey 选择自建云 Agent 基础设施,也说明企业正在重新计算 AI 总账。它每月处理的 Token 规模极高,如果完全依赖通用大厂托管平台,不仅成本压力明显,还会遇到多模型切换、零数据留存和行业合规要求。自建基础设施并不适合所有公司,但对高频、专业、强合规的行业玩家来说,掌握底层调度与数据边界会变得越来越重要。

这也解释了为什么 Liquid AI 的 LocalCowork、超聚变的 TokenBox、本地模型部署平台和企业级 Agent 基础设施会不断出现。企业真正关心的不是“模型参数有多漂亮”,而是部署后能不能稳定处理真实任务、成本能不能预测、数据能不能审计、故障能不能追责。AI 如果只是少数员工偶尔试用,云端订阅足够;一旦进入核心业务流程,算力架构、权限体系和运维能力就会成为采购决策的一部分。

未来企业 AI 预算也会更精细。哪些任务用云端闭源模型,哪些任务用开源模型私有化,哪些任务用端侧小模型,哪些任务保留人工处理,都需要明确规则。模型能力仍然重要,但它只是总账的一项。延迟、可用性、合规、数据主权、推理成本、硬件折旧和团队运维能力,都会共同决定一套 Agent 系统能不能长期跑下去。

开源与安全补位

本地与混合部署升温,并不意味着风险自然消失。南航和浙大团队推出覆盖真实 OS 行为越狱的智能体安全评测基准 LITMUS,正好提醒行业:Agent 一旦从聊天走向执行,就会出现“行口不一”的新问题。模型嘴上说会遵守限制,实际调用工具时却可能越权、误操作或执行不该执行的行为,这类执行幻觉比普通文本错误更难接受。

开源生态也在补足基础设施。Hugging Face 重建 Papers with Code,用 AI 智能体自动解析论文和更新 SOTA 排行榜;格灵深瞳开源 LLaVA-OneVision-2.0,让多模态模型不再只依赖抽帧理解视频;阶跃星辰推出 Step 3.7 Flash,强调更高吞吐、更低成本和更长上下文。这些进展虽然方向不同,但共同指向一个趋势:Agent 要真正落地,需要模型、评测、数据、工具和工程框架一起成熟。

对企业而言,安全评测会成为本地 Agent 的标配。以前部署软件要做漏洞扫描、权限配置和日志审计;以后部署 Agent,还要测试它在异常提示、恶意文件、越权请求、工具误调用和长程任务中的表现。尤其是本地 Agent 往往能接触更多内部文件和系统工具,如果缺少沙盒、审计和回滚机制,风险并不会比云端更低。

竞争焦点变了

AI 行业的竞争焦点正在从“谁发布了更强模型”变成“谁能把模型放到正确的位置”。英伟达押注本地 Agent 和企业算力平台,Perplexity 强调任务路由,高通连接端侧与数据中心,Harvey 选择自建基础设施,Liquid AI 推动笔记本本地工作流,背后都是同一个判断:未来的 AI 系统不会只有一个运行地点,也不会只有一种商业模式。

这对普通用户和企业客户都是好事。用户会得到更低延迟、更强隐私保护和更贴近日常设备的 AI 能力;企业则可以根据业务重要性与数据敏感度组合部署,而不是被迫在“全部上云”和“完全不用”之间二选一。真正成熟的 Agent 产品,应该能解释自己为什么在本地执行、为什么调用云端、为什么需要某项权限,以及失败后如何恢复。

接下来值得观察的,不只是哪些模型刷新榜单,而是谁能把本地模型、云端大模型、端侧芯片、企业权限、安全评测和成本治理整合成可维护的产品。AI 从演示走向生产环境后,最稀缺的能力不一定是单次生成多惊艳,而是长期稳定、可控、可审计地完成任务。英伟达和 Perplexity 同时把焦点推向本地与混合推理,说明企业 AI 的下一轮竞争,已经开始围绕部署边界和执行架构展开。

© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享