大模型开始装进手机和手表，端侧AI入口战真正升温-速维云

面壁智能把三值大模型搬到华为昇腾体系上，并给出从 0.5B 到 8B 的开源版本，这条消息的重点不只是“又一个模型发布”。它真正刺眼的地方在于：大模型正在从云端机房继续往端侧设备下沉，手机、手表、耳机、眼镜这些原本算力受限的设备，正在重新进入 AI 入口竞争。BitCPM-CANN 宣称可将显存占用节省约 6 倍，最小模型运行内存压到约 200MB，更大的设想则是让 600 亿参数模型未来有机会在 8GB 内存手机上运行。

端侧模型压缩和硬件适配正在让 AI 从云端继续走向手机、手表和可穿戴设备。

这意味着 AI 行业的竞争不再只围绕“谁训练出最大的模型”，而是开始追问另一件事：谁能把足够强的模型放到足够便宜、足够普遍、足够低延迟的设备上。同一批资讯里，摄像头 AI 耳机、XR 智能眼镜、实时数字人、企业 Agent、真实办公评测和 AI 造芯新闻同时出现，说明模型、硬件、应用入口和工程效率正在合流。云端大模型仍然重要，但端侧 AI 可能决定下一批用户每天真正触碰 AI 的方式。

端侧模型松动

面壁智能联合清华、OpenBMB 发布的 BitCPM-CANN，最核心的技术标签是“三值大模型”和“华为昇腾”。三值化可以把模型权重压缩到更低比特表示，显著降低显存和内存需求；而面向昇腾生态做适配，则意味着它不是只停留在论文或通用 GPU 演示里，而是尝试进入国产算力和端侧部署链路。报道中提到，其能力保留率最高达 97.2%，这是判断这类压缩模型价值的关键指标：如果压缩后能力损失太大，低成本就只剩噱头；如果能力保留足够高，设备形态就会被重新打开。

0.5B 到 8B 的开源尺寸也很有现实意义。小模型可以服务智能手表、耳机、车载和家居设备，负责唤醒、摘要、简单问答、意图识别和本地隐私任务；较大的模型则可能进入手机、平板、PC 或边缘服务器，承担更复杂的多轮对话、文档处理、离线助手和轻量 Agent。过去端侧 AI 常被理解为“云端大模型的附属功能”，现在更像是一个独立战场：谁能在本地跑得快、耗电低、响应稳，谁就能拿到系统级入口。

硬件入口重排

端侧模型进展和 AI 硬件新品几乎是同一件事的两面。光帆科技推出带摄像头的 AI 全感耳机，试图让耳机从音频设备变成视觉感知入口；VITURE 的 XR 智能眼镜强调办公和 Vibe Coding 场景，把屏幕、空间锚定和本地计算结合起来；还有各种 AI 唤醒灯、AI 分身、数字人和车载场景，都在试探“聊天框之外”的入口。设备厂商的共同判断是：如果 AI 只能待在 App 里，用户调用频率有限；如果 AI 能常驻在耳朵、眼睛、手腕和桌面边，它就更接近日常。

但硬件入口不能只靠概念成立。摄像头耳机需要解决隐私提醒、续航、散热、场景误触和社会接受度；XR 眼镜要面对重量、亮度、延迟、佩戴舒适度和软件生态；智能手表和耳机更受限于电池和内存。端侧模型压缩的价值就在这里：它不是单纯把云端模型变小，而是为硬件产品补上“离线可用、低延迟、低成本、少传数据”的能力底座。只有模型足够轻，硬件才可能摆脱“每次请求都上云”的体验瓶颈。

算力账本变化

端侧 AI 的升温，本质上也和云端算力成本有关。OpenAI 与 Broadcom 定制 AI 芯片的计划被采购承诺卡住，黄仁勋预计全球 AI 基础设施仍将持续巨额投入，DeepSeek、Reasonix、OpenClacky 等项目又不断强调推理降价和缓存优化。这些消息放在一起看，说明行业正在同时做两件事：一边继续建设更大的云端算力，一边想方设法把单位推理成本压低。端侧模型则提供了第三条路：不是所有请求都必须回到云端，部分高频、轻量、隐私敏感任务可以在本地解决。

这对商业模式影响很大。云端 API 的收入来自调用量，但调用量越大，成本压力也越明显；端侧模型可以减少部分云端支出，却要求厂商在芯片适配、系统调度、模型压缩和设备协同上投入更多工程能力。未来更可能出现混合架构：本地模型先做意图识别、上下文整理、隐私过滤和简单执行，复杂推理、长文生成、多模态理解再交给云端大模型。用户看到的是一个助手，背后其实是一套跨设备、跨算力层级的调度系统。

Agent需要落地

端侧能力提升，也会改变 Agent 的落地方式。今天很多 Agent 演示看起来很强，但一到真实办公、跨应用操作和长流程任务就容易掉链子。UniPat AI 的 SaaS-Bench 评测显示，最强模型在真实 SaaS 办公任务中的完全通过率仍然很低，说明“会说”和“会稳定做事”之间还有巨大距离。原因不只在模型本身，还包括权限、界面变化、任务记忆、异常恢复、验证机制和工具链适配。把 Agent 放到端侧设备上之后，这些问题会更具体：它要看屏幕、听环境、理解用户习惯，还要避免误操作。

不过端侧模型也给 Agent 带来新的可能。本地设备掌握更多个人上下文，比如常用 App、文件、日程、会议、位置、设备状态和即时输入；如果这些信息不必全部上传云端，隐私压力会小很多，响应速度也会更快。Claude 测试记忆系统、ima 开放 Copilot、QoderWake 试图组建数字员工团队、OmniWork 把多专家协作包装成创作操作系统，这些方向都说明 Agent 正从单轮问答进入持续工作流。端侧 AI 则可能成为工作流的前台入口，云端大模型负责重推理和复杂生成。

应用边界扩大

除了模型和硬件，AI 应用也在向更多行业分叉。谷歌 Gemini for Science 把 AI 工具集带进科研流程，AI 视频和图像应用收入继续增长，MovieFlow Studio 试图重构影视生产，实时数字人技术开始逼近流式生成体验，机器人和具身智能公司持续融资。它们共同说明，AI 已经不是单一产品线，而是在科研、内容、办公、硬件、机器人和企业服务里同时寻找落点。端侧模型突破会让这些应用更靠近用户现场，而不只是停留在云端后台。

但边界扩大也会带来更复杂的风险。具身智能安全综述提醒行业，机器人从“说错话”升级到“干错事”后，风险性质完全不同；AI 自主经营实验亏损，也说明当前模型还不具备独立处理现实商业闭环的能力；AI 内容数量超过人类之后，可信度和来源验证变得更重要。端侧 AI 若进入摄像头、耳机、眼镜和家用设备，隐私、安全、误判和责任归属都会更敏感。技术变轻不代表治理可以变轻，入口越贴身，边界越要清楚。

竞争回到工程

这一轮资讯最值得注意的共性，是 AI 竞争正在回到工程能力。BitCPM-CANN 关注模型压缩和硬件适配，CODA 关注 Transformer 计算优化，Reasonix 关注缓存命中率，Harness 文件提升编程智能体成功率，SaaS-Bench 则用真实任务暴露 Agent 缺陷。这些都不是单纯的发布会话术，而是决定 AI 能不能便宜、稳定、低延迟、可验证地进入生产环境。下一阶段的赢家，未必只是参数最多、榜单最高的公司，而是能把模型、芯片、系统、工具和场景一起打通的团队。

对企业和开发者来说，判断 AI 产品也要从“模型名气”转向“部署质量”。是否支持本地和云端混合？是否能控制推理成本？是否有可靠的权限边界和日志审计？是否能在真实业务系统里验证结果？是否能根据设备能力自动选择模型？这些问题会比一句“接入大模型”更重要。端侧大模型的突破给行业打开了新空间，但真正决定它能走多远的，仍然是工程细节、生态适配和长期可用性。

文章版权归作者所有，未经允许请勿转载。

THE END