算力不够只是表象:AI公司开始把战场搬到GPU利用率和端侧模型

DeepSeek 梁文锋署名发布 DSpark 论文,把大模型推理加速这个老问题重新推到台前。资讯显示,DSpark 面向大模型推理环节做投机解码与系统优化,单用户速度提升 85%,高并发吞吐提升 4 倍,配套 DeepSpec 库也已开源。它的重要性不只在于“跑得更快”,而在于提醒行业:当模型越来越强、上下文越来越长、调用越来越频繁时,AI 竞争已经不能只靠堆更多 GPU 解决。

同一组最新资讯里,GPU 利用率偏低、端侧流式多模态模型、统一多模态 tokenizer、本地小模型和触觉基础模型同时出现,构成了一条清晰主线:AI 公司正在从“模型参数竞赛”转向“效率工程竞赛”。谁能把已有算力吃干榨净,谁能把推理延迟压下去,谁能让模型在手机、机器人、浏览器和本地设备上稳定运行,谁就更接近真实商业化。

推理效率成了硬指标

过去行业评价模型,最常见的是榜单分数、上下文长度、生成质量和多模态能力。但这些指标进入真实产品后,都会被推理成本重新校准。一个模型如果回答很强,却需要用户等待太久、企业客户承担过高账单、服务商在高峰期频繁排队,它的商业价值就会被打折。DSpark 的意义就在这里:它不是再训练一个更大的模型,而是在推理阶段想办法减少等待、提高吞吐、降低单位调用成本。

投机解码这类方案的核心逻辑,是让系统先用更轻量的方式预测一段可能输出,再由主模型验证和修正,从而减少逐 token 生成的阻塞感。用户感受到的是回答更快,平台感受到的是同样硬件能服务更多请求。对于聊天助手、代码工具、搜索 Agent、客服系统和企业知识库来说,这类提升会直接影响留存、毛利和可用性。AI 的下一轮竞争,很可能不再只看模型有没有“更聪明”,还要看它能不能“更便宜地聪明”。

GPU 不够只是表象

另一条值得关注的资讯指出,当前 AI 行业普遍喊缺算力,但多项研究显示 GPU 利用率偏低,约 90% 算力可能没有被充分转化为有效计算。这个说法听起来有些反直觉:一边是大公司排队抢芯片、建设数据中心、签长期云资源协议,另一边却是已有 GPU 并没有被完全用好。矛盾背后,是 AI 系统工程的复杂性。

GPU 不是插上电就能自然满负荷产出。数据 IO、显存调度、网络互联、批处理策略、模型并行、缓存命中、请求波峰、冷热模型切换,都会影响最终利用率。训练阶段可能卡在数据读取和通信,推理阶段可能卡在小批量请求和上下文管理。也就是说,算力瓶颈不一定只是“芯片数量不够”,还可能是“系统没有把芯片喂饱”。这也是为什么推理框架、编译器、内核优化、调度系统和数据管线,正在从幕后工具变成 AI 公司的核心资产。

端侧模型走向物理世界

杭州 Om AI 发布面向物理世界的端侧流式多模态模型 VLX,也值得放在同一条线里理解。端侧模型强调在手机、机器人、可穿戴设备等本地硬件上运行,天然面临算力、内存、功耗和延迟限制。如果云端模型追求上限,端侧模型则更看重稳定、实时、低成本和隐私边界。它们服务的不是一次漂亮演示,而是连续不断的真实感知和响应。

这类模型如果成熟,会改变很多场景的产品形态。机器人不可能每个动作都依赖云端往返,智能眼镜不能让用户等半天才识别环境,手机上的个人助手也不能把所有敏感上下文都上传。端侧流式多模态意味着模型要边看、边听、边理解、边行动,还要在有限硬件上保持流畅。它把 AI 从数据中心拉回设备本身,也让“模型小型化、推理优化、硬件适配”变得更重要。

AI推理效率、GPU芯片与端侧模型示意图
AI 竞争正在从单纯堆模型,转向芯片利用率、推理效率与端侧部署的系统能力。

多模态也在追求统一

南京大学团队与腾讯混元推出 HYDRA/HYDRA-X,用单个基于 ViT 的统一 tokenizer 同时处理多模态理解和生成,并进一步扩展到视频任务。这个方向看似偏研究,但和效率竞争同样相关。多模态系统过去常常由多个模块拼接:图像理解一套、视频处理一套、生成模型一套、文本模型一套。模块越多,调度越复杂,训练和推理成本也越高。

统一 tokenizer 的目标,是让模型在更统一的表示空间里理解图像、视频和生成任务。它可能减少系统拼接成本,也能让不同任务之间共享能力。对于企业应用来说,这意味着多模态不再只是“能看图”“能生成视频”的单点功能,而是可以逐步进入质检、设计、教育、内容生产、工业视觉和机器人感知等流程。多模态的真正落地,也需要从炫技走向统一架构和可控成本。

本地模型补上另一块拼图

个人开发者 yuxinlu1 自费开发的 12B GGUF 本地模型登上 Hugging Face 热榜,同样说明一个趋势:不是所有 AI 需求都必须交给云端旗舰模型。资讯显示,这类模型只需约 4.5GB 显存即可运行,累计下载量已经很高,性能相对底座模型也有明显提升。它代表的是另一种效率路线——让更多普通设备拥有够用的智能,而不是让所有请求都挤向昂贵云端。

本地模型的价值不止是省钱。它还能带来更好的隐私控制、更低的网络依赖和更灵活的个性化改造。对开发者、学生、小团队和个人用户来说,只要模型在本地足够好,就能承担摘要、写作、代码辅助、资料整理、离线问答等大量任务。云端大模型负责复杂任务和高质量上限,本地小模型负责高频、低成本、可控的日常处理,这种分层会让 AI 产品形态更健康。

从堆料到工程化

把这些新闻放在一起看,会发现 AI 行业正在进入更务实的阶段。DSpark 关注推理加速,GPU 利用率讨论暴露系统浪费,VLX 把多模态推向端侧设备,HYDRA 尝试统一多模态表示,本地小模型则让普通用户在有限硬件上获得可用能力。它们不是同一个产品,却都在回答同一个问题:AI 如何从高成本演示走向大规模可持续使用。

这对企业和开发者也有直接启发。选择 AI 能力时,不能只看某个模型榜单分数,还要看延迟、成本、部署方式、数据边界、扩展性和长期维护难度。未来真正有竞争力的 AI 公司,可能不是最会发布参数故事的公司,而是最会做系统工程的公司。模型仍然重要,但模型之外的推理框架、硬件适配、数据管线、端侧部署和成本控制,正在变成新的护城河。

接下来的观察点

接下来值得观察的,是推理效率会不会成为模型发布时的标准指标。过去厂商喜欢强调能力提升,未来可能必须同时说明每千 token 成本、平均延迟、并发吞吐、端侧适配和能耗表现。对用户来说,这些指标决定产品是否真正可用;对企业来说,它们决定 AI 项目能不能从试点进入生产。

另一个观察点,是云端和端侧的分工会如何变化。大型模型会继续承担复杂推理、长上下文、多工具协作和高价值任务,但端侧模型、本地模型和专用小模型会承接越来越多高频场景。AI 的未来不是单一超级模型吞掉一切,而是由不同规模、不同成本、不同部署位置的模型共同组成系统。谁能把这套系统调度好,谁就能在下一阶段 AI 竞争里拿到更稳的位置。

© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享