英伟达推本地Agent后，企业AI竞争开始重画端云边界-速维云

英伟达发布 Hermes Agent 与 NeMoClaw 企业级 AI 方案后，本地 Agent 的竞争突然变得更具体了。它不是单纯把大模型搬到一台电脑上运行，而是把企业最敏感的三个问题同时摆上台面：数据要不要出门、任务能不能持续进化、从个人 RTX PC 到企业级 DGX 平台能不能形成同一套部署路径。与此同时，Perplexity 展示任务路由混合推理系统，高通继续强化从手机、PC、机器人到数据中心的“计算连续体”，Liquid AI 推出可在笔记本本地运行的 LocalCowork。几条消息放在一起看，AI 应用竞争正在从“模型谁更强”转向“任务到底该在本地、边缘还是云端执行”。

本地 Agent、边缘设备与云端算力正在组成新的企业 AI 执行架构。

这条主线对企业用户尤其关键。过去很多公司把 AI 视为云端 API 服务：接入快、能力强、弹性高，但隐私、延迟、成本和合规压力也随之而来。现在，本地 Agent、混合推理、端侧模型和自建云基础设施开始同时升温，说明企业 AI 不再只有“全上云”这一种答案。真正有竞争力的方案，可能是根据任务类型、数据敏感度、算力需求和响应时延动态分配运行位置。

本地 Agent 升温

英伟达这次发布 Hermes Agent 与 NeMoClaw 企业级 AI 方案，最突出的信号是“本地运行”被重新放到企业 AI 架构的中心。企业并不是不想用大模型，而是担心核心文档、客户资料、研发数据、合同条款和内部流程一旦进入外部云服务，就会带来合规与安全风险。全本地运行的价值，就在于让模型和工具链尽可能靠近企业数据，在内网、私有设备或受控算力环境中完成推理与执行。

Hermes Agent 还强调自我进化技能存储和数据隔离设计，这说明本地 Agent 的目标已经不只是“离线聊天”。一个真正可用的企业 Agent，需要不断积累组织流程、工具调用方式、常见任务模板和部门知识，同时又不能把不同用户、不同团队、不同客户之间的数据边界混在一起。技能沉淀与隔离机制如果做不好，本地部署也可能变成新的风险源。

从 RTX PC 到 DGX Spark 多平台适配，也让这条路线更有现实意义。中小团队可能先从工作站或高性能 PC 试点，把文档处理、代码辅助、客服知识库、投标材料整理等任务放到本地执行；大型企业则可能在私有集群上搭建更完整的 Agent 平台，把多部门流程、权限审计和大规模推理统一起来。英伟达想抓住的不是单个应用，而是企业 AI 的算力底座和部署标准。

任务路由成关键

Perplexity 在 Computex 英特尔主题演讲中展示的任务路由混合推理系统，则给出了另一个方向：不是所有任务都必须本地执行，也不是所有任务都适合云端处理。简单、敏感、低延迟的任务可以放在本地；需要更强模型能力、更大上下文或更多外部检索的任务再交给云端。这样一来，AI 系统的核心能力就不只是回答问题，而是判断“这件事应该在哪里做”。

任务路由看似是工程细节，实际影响很大。比如企业员工让 AI 总结一份内部合同，本地模型可能更合适，因为文本敏感且任务相对明确；如果要做跨行业市场分析，云端模型和实时检索能力可能更有优势；如果要处理会议纪要、邮件草稿和日程安排，则可以根据内容敏感度和响应速度动态拆分。未来 AI 助手的体验差距，可能就体现在这些看不见的调度策略上。

混合推理还能缓解成本压力。企业如果把所有任务都交给最强云端模型，Token 成本会迅速放大；如果一味追求本地化，又可能牺牲复杂任务效果。更合理的方式，是用较小模型和本地算力处理高频基础任务，再把少量高价值复杂任务分发到云端大模型。这个逻辑与企业 IT 过去从公有云、私有云到混合云的演进很相似，只不过现在调度对象变成了模型、上下文、工具调用和智能体行为。

端云边界重画

高通提出“计算连续体”，把手机、PC、机器人和数据中心放在同一条 AI 路线上，也反映了端云边界正在重画。Agent 时代的设备不再只是模型入口，而可能成为推理节点、感知节点和执行节点。手机负责个人上下文与即时交互，PC 承担办公文件和本地工具调用，机器人处理物理动作，数据中心提供大规模训练和复杂推理，几类设备之间需要形成连续协作。

这对硬件厂商是新机会。过去手机芯片、PC 芯片和数据中心芯片的叙事相对分散，现在 AI Agent 要跨设备完成任务，算力、能耗、内存、带宽和安全模块都要一起考虑。高通推出骁龙 C 平台、机器人参考设计和 Dragonfly 数据中心品牌，本质上是在争取把端侧、边缘和云端连成一套可部署生态，而不是只卖单一芯片。

端侧能力增强后，用户体验也会变化。很多任务不必等待云端响应，隐私数据可以先在本机处理，网络不稳定时也能保留基础能力。对企业来说，端侧模型还能成为权限控制的一部分：某些数据只允许在设备内推理，某些摘要结果才允许上传，某些高风险操作必须经过人工确认。AI 系统越深入工作流，端云协同就越需要细粒度治理。

企业开始算总账

全球法律 AI 公司 Harvey 选择自建云 Agent 基础设施，也说明企业正在重新计算 AI 总账。它每月处理的 Token 规模极高，如果完全依赖通用大厂托管平台，不仅成本压力明显，还会遇到多模型切换、零数据留存和行业合规要求。自建基础设施并不适合所有公司，但对高频、专业、强合规的行业玩家来说，掌握底层调度与数据边界会变得越来越重要。

这也解释了为什么 Liquid AI 的 LocalCowork、超聚变的 TokenBox、本地模型部署平台和企业级 Agent 基础设施会不断出现。企业真正关心的不是“模型参数有多漂亮”，而是部署后能不能稳定处理真实任务、成本能不能预测、数据能不能审计、故障能不能追责。AI 如果只是少数员工偶尔试用，云端订阅足够；一旦进入核心业务流程，算力架构、权限体系和运维能力就会成为采购决策的一部分。

未来企业 AI 预算也会更精细。哪些任务用云端闭源模型，哪些任务用开源模型私有化，哪些任务用端侧小模型，哪些任务保留人工处理，都需要明确规则。模型能力仍然重要，但它只是总账的一项。延迟、可用性、合规、数据主权、推理成本、硬件折旧和团队运维能力，都会共同决定一套 Agent 系统能不能长期跑下去。

开源与安全补位

本地与混合部署升温，并不意味着风险自然消失。南航和浙大团队推出覆盖真实 OS 行为越狱的智能体安全评测基准 LITMUS，正好提醒行业：Agent 一旦从聊天走向执行，就会出现“行口不一”的新问题。模型嘴上说会遵守限制，实际调用工具时却可能越权、误操作或执行不该执行的行为，这类执行幻觉比普通文本错误更难接受。

开源生态也在补足基础设施。Hugging Face 重建 Papers with Code，用 AI 智能体自动解析论文和更新 SOTA 排行榜；格灵深瞳开源 LLaVA-OneVision-2.0，让多模态模型不再只依赖抽帧理解视频；阶跃星辰推出 Step 3.7 Flash，强调更高吞吐、更低成本和更长上下文。这些进展虽然方向不同，但共同指向一个趋势：Agent 要真正落地，需要模型、评测、数据、工具和工程框架一起成熟。

对企业而言，安全评测会成为本地 Agent 的标配。以前部署软件要做漏洞扫描、权限配置和日志审计；以后部署 Agent，还要测试它在异常提示、恶意文件、越权请求、工具误调用和长程任务中的表现。尤其是本地 Agent 往往能接触更多内部文件和系统工具，如果缺少沙盒、审计和回滚机制，风险并不会比云端更低。

竞争焦点变了

AI 行业的竞争焦点正在从“谁发布了更强模型”变成“谁能把模型放到正确的位置”。英伟达押注本地 Agent 和企业算力平台，Perplexity 强调任务路由，高通连接端侧与数据中心，Harvey 选择自建基础设施，Liquid AI 推动笔记本本地工作流，背后都是同一个判断：未来的 AI 系统不会只有一个运行地点，也不会只有一种商业模式。

这对普通用户和企业客户都是好事。用户会得到更低延迟、更强隐私保护和更贴近日常设备的 AI 能力；企业则可以根据业务重要性与数据敏感度组合部署，而不是被迫在“全部上云”和“完全不用”之间二选一。真正成熟的 Agent 产品，应该能解释自己为什么在本地执行、为什么调用云端、为什么需要某项权限，以及失败后如何恢复。

接下来值得观察的，不只是哪些模型刷新榜单，而是谁能把本地模型、云端大模型、端侧芯片、企业权限、安全评测和成本治理整合成可维护的产品。AI 从演示走向生产环境后，最稀缺的能力不一定是单次生成多惊艳，而是长期稳定、可控、可审计地完成任务。英伟达和 Perplexity 同时把焦点推向本地与混合推理，说明企业 AI 的下一轮竞争，已经开始围绕部署边界和执行架构展开。

文章版权归作者所有，未经允许请勿转载。

THE END