大模型开始装进手机和手表,端侧AI入口战真正升温

面壁智能把三值大模型搬到华为昇腾体系上,并给出从 0.5B 到 8B 的开源版本,这条消息的重点不只是“又一个模型发布”。它真正刺眼的地方在于:大模型正在从云端机房继续往端侧设备下沉,手机、手表、耳机、眼镜这些原本算力受限的设备,正在重新进入 AI 入口竞争。BitCPM-CANN 宣称可将显存占用节省约 6 倍,最小模型运行内存压到约 200MB,更大的设想则是让 600 亿参数模型未来有机会在 8GB 内存手机上运行。

手机、手表与AI芯片组成的端侧AI硬件场景
端侧模型压缩和硬件适配正在让 AI 从云端继续走向手机、手表和可穿戴设备。

这意味着 AI 行业的竞争不再只围绕“谁训练出最大的模型”,而是开始追问另一件事:谁能把足够强的模型放到足够便宜、足够普遍、足够低延迟的设备上。同一批资讯里,摄像头 AI 耳机、XR 智能眼镜、实时数字人、企业 Agent、真实办公评测和 AI 造芯新闻同时出现,说明模型、硬件、应用入口和工程效率正在合流。云端大模型仍然重要,但端侧 AI 可能决定下一批用户每天真正触碰 AI 的方式。

端侧模型松动

面壁智能联合清华、OpenBMB 发布的 BitCPM-CANN,最核心的技术标签是“三值大模型”和“华为昇腾”。三值化可以把模型权重压缩到更低比特表示,显著降低显存和内存需求;而面向昇腾生态做适配,则意味着它不是只停留在论文或通用 GPU 演示里,而是尝试进入国产算力和端侧部署链路。报道中提到,其能力保留率最高达 97.2%,这是判断这类压缩模型价值的关键指标:如果压缩后能力损失太大,低成本就只剩噱头;如果能力保留足够高,设备形态就会被重新打开。

0.5B 到 8B 的开源尺寸也很有现实意义。小模型可以服务智能手表、耳机、车载和家居设备,负责唤醒、摘要、简单问答、意图识别和本地隐私任务;较大的模型则可能进入手机、平板、PC 或边缘服务器,承担更复杂的多轮对话、文档处理、离线助手和轻量 Agent。过去端侧 AI 常被理解为“云端大模型的附属功能”,现在更像是一个独立战场:谁能在本地跑得快、耗电低、响应稳,谁就能拿到系统级入口。

硬件入口重排

端侧模型进展和 AI 硬件新品几乎是同一件事的两面。光帆科技推出带摄像头的 AI 全感耳机,试图让耳机从音频设备变成视觉感知入口;VITURE 的 XR 智能眼镜强调办公和 Vibe Coding 场景,把屏幕、空间锚定和本地计算结合起来;还有各种 AI 唤醒灯、AI 分身、数字人和车载场景,都在试探“聊天框之外”的入口。设备厂商的共同判断是:如果 AI 只能待在 App 里,用户调用频率有限;如果 AI 能常驻在耳朵、眼睛、手腕和桌面边,它就更接近日常。

但硬件入口不能只靠概念成立。摄像头耳机需要解决隐私提醒、续航、散热、场景误触和社会接受度;XR 眼镜要面对重量、亮度、延迟、佩戴舒适度和软件生态;智能手表和耳机更受限于电池和内存。端侧模型压缩的价值就在这里:它不是单纯把云端模型变小,而是为硬件产品补上“离线可用、低延迟、低成本、少传数据”的能力底座。只有模型足够轻,硬件才可能摆脱“每次请求都上云”的体验瓶颈。

算力账本变化

端侧 AI 的升温,本质上也和云端算力成本有关。OpenAI 与 Broadcom 定制 AI 芯片的计划被采购承诺卡住,黄仁勋预计全球 AI 基础设施仍将持续巨额投入,DeepSeek、Reasonix、OpenClacky 等项目又不断强调推理降价和缓存优化。这些消息放在一起看,说明行业正在同时做两件事:一边继续建设更大的云端算力,一边想方设法把单位推理成本压低。端侧模型则提供了第三条路:不是所有请求都必须回到云端,部分高频、轻量、隐私敏感任务可以在本地解决。

这对商业模式影响很大。云端 API 的收入来自调用量,但调用量越大,成本压力也越明显;端侧模型可以减少部分云端支出,却要求厂商在芯片适配、系统调度、模型压缩和设备协同上投入更多工程能力。未来更可能出现混合架构:本地模型先做意图识别、上下文整理、隐私过滤和简单执行,复杂推理、长文生成、多模态理解再交给云端大模型。用户看到的是一个助手,背后其实是一套跨设备、跨算力层级的调度系统。

Agent需要落地

端侧能力提升,也会改变 Agent 的落地方式。今天很多 Agent 演示看起来很强,但一到真实办公、跨应用操作和长流程任务就容易掉链子。UniPat AI 的 SaaS-Bench 评测显示,最强模型在真实 SaaS 办公任务中的完全通过率仍然很低,说明“会说”和“会稳定做事”之间还有巨大距离。原因不只在模型本身,还包括权限、界面变化、任务记忆、异常恢复、验证机制和工具链适配。把 Agent 放到端侧设备上之后,这些问题会更具体:它要看屏幕、听环境、理解用户习惯,还要避免误操作。

不过端侧模型也给 Agent 带来新的可能。本地设备掌握更多个人上下文,比如常用 App、文件、日程、会议、位置、设备状态和即时输入;如果这些信息不必全部上传云端,隐私压力会小很多,响应速度也会更快。Claude 测试记忆系统、ima 开放 Copilot、QoderWake 试图组建数字员工团队、OmniWork 把多专家协作包装成创作操作系统,这些方向都说明 Agent 正从单轮问答进入持续工作流。端侧 AI 则可能成为工作流的前台入口,云端大模型负责重推理和复杂生成。

应用边界扩大

除了模型和硬件,AI 应用也在向更多行业分叉。谷歌 Gemini for Science 把 AI 工具集带进科研流程,AI 视频和图像应用收入继续增长,MovieFlow Studio 试图重构影视生产,实时数字人技术开始逼近流式生成体验,机器人和具身智能公司持续融资。它们共同说明,AI 已经不是单一产品线,而是在科研、内容、办公、硬件、机器人和企业服务里同时寻找落点。端侧模型突破会让这些应用更靠近用户现场,而不只是停留在云端后台。

但边界扩大也会带来更复杂的风险。具身智能安全综述提醒行业,机器人从“说错话”升级到“干错事”后,风险性质完全不同;AI 自主经营实验亏损,也说明当前模型还不具备独立处理现实商业闭环的能力;AI 内容数量超过人类之后,可信度和来源验证变得更重要。端侧 AI 若进入摄像头、耳机、眼镜和家用设备,隐私、安全、误判和责任归属都会更敏感。技术变轻不代表治理可以变轻,入口越贴身,边界越要清楚。

竞争回到工程

这一轮资讯最值得注意的共性,是 AI 竞争正在回到工程能力。BitCPM-CANN 关注模型压缩和硬件适配,CODA 关注 Transformer 计算优化,Reasonix 关注缓存命中率,Harness 文件提升编程智能体成功率,SaaS-Bench 则用真实任务暴露 Agent 缺陷。这些都不是单纯的发布会话术,而是决定 AI 能不能便宜、稳定、低延迟、可验证地进入生产环境。下一阶段的赢家,未必只是参数最多、榜单最高的公司,而是能把模型、芯片、系统、工具和场景一起打通的团队。

对企业和开发者来说,判断 AI 产品也要从“模型名气”转向“部署质量”。是否支持本地和云端混合?是否能控制推理成本?是否有可靠的权限边界和日志审计?是否能在真实业务系统里验证结果?是否能根据设备能力自动选择模型?这些问题会比一句“接入大模型”更重要。端侧大模型的突破给行业打开了新空间,但真正决定它能走多远的,仍然是工程细节、生态适配和长期可用性。

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容