Flourish融资后，端侧AI竞争开始从云端算力转向低功耗芯片-速维云

Flourish Inc. 拿到 5 亿美元融资后，端侧 AI 这条线突然变得更具体了。它要做的不是再把模型堆到更大的云端 GPU 集群里，而是把可持续学习的类脑 AI 模型压进 50 瓦以下芯片，让手机、PC、随身设备和本地工作站也能承接更复杂的推理任务。这个方向如果成立，AI 产品的竞争会从“谁能调用更强云模型”，继续扩展到“谁能把智能放在用户身边，并且长期稳定运行”。

这条消息和 Rio 3.5 Open 397B、Fusion 多模型融合、星火医疗 V3.5、Minerva 营销平台、B300 供给紧张、Google 向英特尔下单 TPU 放在一起看，会出现一个清楚变化：AI 行业不再只围绕模型榜单转圈。模型能力仍然重要，但成本、能耗、芯片供给、行业交付和本地化能力正在一起决定产品边界。云端大模型继续向上突破，端侧模型则试图把 AI 从数据中心带回设备本身。

低功耗转向

Flourish 的核心看点，是把 AI 推理功耗从常见高性能 GPU 的数百瓦级别，拉到 50 瓦以下芯片可承受的范围。对普通用户来说，这听起来像一个工程参数；但对 AI 产品来说，它直接关系到模型能不能离开数据中心。只要推理必须依赖大功率 GPU，大部分智能体验就天然受制于网络、云端排队、API 成本、数据上传和服务商策略。功耗下降之后，手机、PC、车载设备、摄像头、机器人和企业本地终端才有机会承担更多实时任务。

更值得注意的是，Flourish 强调的是类脑 AI 模型和本地持续学习。传统端侧模型往往更像“轻量功能模块”：能识别语音、分类图片、做简单摘要，却很难承担长期记忆、复杂推理和个性化适配。一旦模型可以在低功耗芯片上持续运行并根据用户场景学习，端侧 AI 就不只是云模型的缓存或备用方案，而可能成为一种新的主入口。它知道用户的设备、文件、习惯和上下文，却不必把每一步都交给云端。

这也是为什么 5 亿美元融资值得关注。资本押注的不是单个模型分数，而是端侧智能的基础设施窗口。过去两年，AI 行业把很多精力放在更大的模型、更长的上下文和更强的云端 agent 上；现在，低功耗、本地化、隐私和成本控制开始被重新摆上桌面。对消费设备厂商和企业客户来说，能够在本地稳定运行的 AI，比一次惊艳演示更接近可持续产品。

芯片压力

B300 供给紧张和 Google 向英特尔下单 TPU，分别从两个方向说明了算力问题的复杂性。一边是高端 AI 芯片交付、合规、渠道信用和现货价格持续牵动市场；另一边是大厂提前为未来 AI 服务锁定专用芯片制造能力。AI 模型越强，应用越多，算力需求就越难靠临时采购解决。芯片已经不是模型背后的配角，而是 AI 商业化能不能稳定推进的关键变量。

在这样的背景下，Flourish 的低功耗路线有现实意义。它不是要取代所有云端训练和高性能推理，而是把一部分原本必须上云的任务下沉到设备。比如个人助理的日常理解、文档整理、离线摘要、隐私数据分析、终端侧推荐、车载监测、轻量 agent 执行，都可能不需要每次都调用最大模型。只要端侧模型足够聪明，云端就可以专注处理更重、更复杂、更需要集中算力的任务。

这会改变 AI 成本结构。企业部署 AI 时，最难控制的往往不是第一次接入，而是规模化使用后的推理账单、并发压力和峰值资源。端侧能力越强，云端调用次数就越可控，隐私敏感数据也可以更多留在本地。对于已经在做 AI 客服、办公助手、营销分析和行业 agent 的公司而言，端云协同会比单纯追求一个最强 API 更现实。

低功耗芯片让更多AI推理任务从云端下沉到本地设备。

开源与融合

同一批资讯里，Rio 3.5 Open 397B 的出现代表了另一种路线：开源大模型继续向高端能力区间逼近。397B 参数、百万上下文、MIT 许可可商用，让它不只是一个社区项目，而是可能被企业认真纳入技术选型的基础模型。过去企业常把闭源模型当作最强能力来源，把开源模型用于成本控制和私有化部署；现在这个边界正在变模糊。

开源模型变强之后，企业会有更多组合空间。核心业务可以选择本地化部署或私有云改造，通用任务可以调用成熟闭源模型，端侧设备则运行低功耗模型承担实时交互。模型不再是单一供应商的一条线，而是像数据库、云服务和中间件一样进入架构设计。谁能把不同模型、不同芯片、不同数据源和不同工具调度好，谁就更接近真实生产力。

OpenRouter 的 Fusion 多模型融合测试也说明，下一阶段竞争未必只有“一个超级模型击败所有模型”。Kimi K2.6、DeepSeek V4 Pro、Gemini 3 Flash 组合后接近 Fable 5 的表现，成本却明显下降，这提醒企业：模型能力可以被系统工程重新组织。用多个模型分工、投票、互补和校验，有时候比等待单一模型全能更划算。

行业落地

星火医疗 V3.5 和 Minerva 营销平台代表的是应用端变化。星火医疗强调病历医生采纳率、书写时间下降和大规模辅助诊断，说明医疗 AI 已经从“模型能不能答医学题”进入“能不能减轻医生真实工作负担”的阶段。Minerva 则把 GPT-5.5 放进营销预测和用户数据整合流程里，强调 24 小时启用和广告 ROI 提升。两者看似行业差异很大，本质上都在把模型变成流程工具。

这类落地对端侧 AI 也提出了新要求。医疗、营销、法务、办公和硬件控制都涉及大量私有数据，企业不可能把所有信息无差别送入外部 API。更合理的方式，是让本地模型先完成清洗、预处理、摘要、分类和权限内判断，再把需要更强推理的部分交给云端。低功耗模型如果能在终端和企业内网中稳定工作，就会成为行业 AI 的前置层。

从用户体验看，端侧模型还能改善延迟和连续性。医生写病历、销售看客户记录、法务处理合同、设计师调整素材时，很多操作都需要即时反馈。如果每次都等待云端响应，体验会被网络和排队影响；如果基础理解和局部编辑在本地完成，AI 会更像工具，而不是一个远处的问答窗口。这种差别不炫技，却决定产品是否能被每天使用。

设备入口

前联影集团 AI 创新业务负责人创业做硬件原型开发平台 STACK ANYWAY，也和端侧智能形成呼应。它用文字生成硬件原型，收录大量板卡，目标是让用户更快做出实物样机。AI 不只是生成文案、图片和代码，也开始参与硬件设计、板卡组合、原型验证和设备开发。端侧模型越成熟，硬件创新就越容易围绕 AI 能力重新设计。

手机、PC、AI 随身设备、车载终端、机器人和行业专用硬件，都在寻找自己的智能入口。过去很多设备只是把语音助手接到云端，功能边界很浅；现在厂商更关心模型能否理解环境、处理多模态信息、调用本地文件、记住用户偏好，并在弱网或离线状态下继续工作。这些需求都把模型推向更低功耗、更小延迟和更强本地化。

如果 Flourish 这类公司能够把类脑模型真正压进低功耗芯片，设备厂商会获得新的产品想象力。AI 手机不必只比拼拍照修图和云端问答，AI PC 不必只依赖在线 Copilot，智能硬件也不必每个动作都上传等待。端侧智能越强，设备本身越有机会重新成为计算中心，而不是云端模型的遥控器。

商业分层

端侧 AI 升温并不意味着云端大模型降温，恰恰相反，它会让 AI 商业模式更分层。最重的训练、复杂科学推理、大规模代码生成和跨系统企业流程，仍然需要云端高性能模型；但大量高频、低延迟、隐私敏感和个性化任务，会逐步交给端侧模型。用户看到的是一个助手，背后可能是端侧小模型、企业私有模型、开源大模型和闭源旗舰模型共同协作。

这也会影响厂商竞争方式。模型公司要证明能力，芯片公司要证明能效，设备公司要证明入口价值，企业服务商要证明流程交付。单一指标越来越难解释 AI 产品的真实竞争力。一个模型再强，如果调用成本太高、延迟太大、合规不稳定，就很难深入日常业务；一个端侧模型再省电，如果能力不足、生态封闭，也只能停留在功能点。

真正值得关注的是端云协同的新平衡。Flourish 的低功耗类脑模型、Rio 3.5 的开源能力、Fusion 的多模型组合、Google 与英特尔的芯片制造合作、星火医疗和 Minerva 的行业落地，正在从不同侧面回答同一个问题：AI 下一步不是只做更大的大脑，而是要找到更合适的身体、神经和供能系统。谁能把模型、芯片、设备和场景连成稳定系统，谁才更可能把 AI 从热点变成基础设施。

文章版权归作者所有，未经允许请勿转载。

THE END