英伟达交出一份很难被忽视的财报:2027 财年第一季度营收达到 816.15 亿美元,其中数据中心业务占到 92%。更有意思的是,它的非上市证券持仓达到 433.64 亿美元,一年间投资规模增长近 29 倍。换句话说,英伟达正在从“卖 GPU 的公司”,变成把芯片、云、模型、推理服务、创业公司和企业客户都串起来的 AI 基础设施中枢。

这条消息之所以值得放在首位,是因为它和字节加大 AI 基建投入、Baseten 以 110 亿美元估值洽谈融资、TELOS 试图压低推理账单、谷歌 Gemini 3.5 Flash 遭遇用户吐槽、AI 购物助手在大促前暴露推荐与价格问题等动态放在一起看,正好勾勒出一个更现实的 AI 产业图景:模型能力还在进步,但真正决定商业化速度的,正在变成算力供给、推理成本、服务稳定性、渠道控制和真实业务体验。
英伟达变成基础设施中枢
过去谈英伟达,行业最容易想到的是 GPU 供不应求、数据中心排队采购、训练大模型离不开它。但这次财报里更值得关注的不是“芯片继续好卖”这么简单,而是数据中心业务已经占据绝对主导。营收结构说明,AI 训练和推理需求已经把英伟达推到云基础设施的核心位置,它不再只是硬件供应商,而是在参与定义整个 AI 产业的成本结构。
非上市证券持仓的激增,则说明英伟达正在用投资把自己嵌入更多 AI 公司和生态节点。它投的不只是未来可能带来财务回报的创业项目,更可能是新的算力客户、新的推理场景、新的开发者入口和新的行业解决方案。当一家芯片公司既掌握关键硬件,又通过投资连接应用公司、模型公司和基础设施平台,它就不只是“卖铲子”,而是在 AI 淘金场周围修路、供电、收费、分配入口。
这对创业公司和企业客户都有直接影响。对创业公司来说,能否拿到稳定算力、能否获得生态资源、能否进入更成熟的云和推理渠道,可能比单纯融资金额更关键。对企业客户来说,AI 采购也不再只是买一个模型接口,而是要看背后的算力供给是否可靠、模型服务是否有持续优化空间、数据和成本是否能被长期管理。
算力投入开始重新定价
字节跳动计划将 AI 基建资本开支提升到约 4747 亿元人民币,并计划采购数百万颗高通 AI ASIC 芯片支持 AI Agent 业务,这条消息把“AI 基建战”的规模感进一步放大。过去模型公司拼的是参数、榜单和产品入口,现在大厂开始用资本开支表达决心:如果 AI Agent 真要进入搜索、办公、内容生产、电商、客服和本地生活,背后需要的是长期、稳定、可控的大规模推理能力。
这也是为什么 ASIC、GPU、HBM、数据中心、电力和网络都会被卷进同一场竞争。训练大模型需要集中算力,推理则更像一场长期消耗战:用户每一次对话、每一次商品搜索、每一次办公自动化、每一次 Agent 调用工具,都会形成持续成本。模型越深入业务流程,调用量越容易从“峰值事件”变成“日常基础设施”。
字节采购高通 AI ASIC 的信号也很清楚:大厂并不想在所有场景里都完全依赖通用 GPU。为了降低成本、提升能效、增强供应链可控性,更多定制芯片和专用推理硬件会进入 AI 基建组合。未来企业谈 AI 能力,不能只问用了哪个模型,还要问这套系统跑在什么硬件上、单位推理成本是多少、峰值并发能否撑住、降级策略是否透明。
推理服务商站上台前
Baseten 拟以 110 亿美元估值融资 10 亿美元,年化营收一年增长 20 倍至约 6 亿美元,这说明“帮别人把模型跑起来”已经变成一门大生意。它的价值并不在于训练一个最会聊天的模型,而是向开发者出租 NVIDIA AI 服务器,并协助运行开源 AI 模型,让企业和开发团队不用从零搭建复杂的推理服务。
这类公司吃到的是 AI 应用爆发后的第二层红利。模型开源越来越多,企业选择也越来越多,但真正难的是部署、扩缩容、延迟控制、成本优化、监控、故障切换和多模型管理。对很多团队来说,模型权重可以下载,产品 Demo 可以快速做出来,可一旦用户量上来,推理服务就会暴露工程难题:响应慢、账单高、缓存命中率低、GPU 利用率不稳定、更新模型容易影响线上结果。
Baseten 的增长,也和 OpenRouter 这类模型入口平台、云厂商 GPU 集群、英伟达生态投资形成互补。一个负责连接更多模型,一个负责承载更多推理,一个负责提供底层硬件和软件栈。AI 产业正在出现类似互联网云服务早期的分层:底层是算力和网络,中层是部署与调度,上层是模型与应用。谁能在某一层形成标准接口和高可用服务,谁就可能从“工具”变成“基础设施”。
省Token成为硬需求
当算力和推理平台越做越大,成本优化就不再是边角料问题。TELOS 协议之所以引发开发者关注,是因为它尝试通过结构化约束让 Prompt 字节更稳定,从而提高 KV 缓存命中率。实验结果显示,它可以减少 52.8% 的高价原始 Token 消耗,总成本降低 31.5%,在某些账单结构下甚至能让用户省下超过 90% 的 API 费用。
这背后的逻辑很朴素:模型调用并不是只按“问了几次”收费,而是和输入、输出、上下文长度、缓存命中、模型档位、并发策略密切相关。企业一旦把 AI 接进客服、运营、研发、数据分析和办公流程,Token 消耗就会从测试费用变成经营成本。一个 Prompt 写得不稳定、上下文拼接太随意、缓存策略没做好,都会让账单悄悄膨胀。
所以,AI 应用的下一阶段竞争会越来越工程化。谁能把提示词结构、上下文裁剪、缓存命中、模型路由和任务拆分做好,谁就能在同样的模型能力下跑出更低成本。对企业用户来说,采购 AI 服务时也要从“单价多少”进一步问到“缓存怎么计费、上下文如何管理、是否支持日志审计、能不能按任务切换模型”。如果这些问题不清楚,表面便宜的模型也可能在规模化后变得昂贵。
模型体验暴露交付难题
谷歌 Gemini 3.5 Flash 被用户吐槽错误多、Token 消耗大、推理能力差,并且由于它被嵌入谷歌多个产品,体验问题会被放大到搜索、办公、助手等日常场景中。谷歌随后增加 Gemini 3.5 Flash (Low) 来优化消耗,并让外界继续等待 Gemini 3.5 Pro。这件事提醒行业:模型发布不是终点,把模型放进全家桶之后,稳定体验才是真正的考试。
同样的压力也出现在 AI 购物场景。618 大促前,淘宝、抖音电商、京东分别接入千问、豆包、言犀大模型推出 AI 购物功能,但实测暴露出推荐不精准、部分标价与成交价不符、跨平台商品链接无法调取等问题。电商 AI 看起来是“问一句买什么”,实际牵涉商品库、价格系统、库存、优惠规则、平台边界和用户偏好,任何一个环节不同步,都会让回答显得不可信。
这说明 AI 应用落地的难点往往不在模型有没有语言能力,而在它能否准确连接业务系统。购物助手必须知道实时价格、优惠条件和可购买链接;办公 Agent 必须理解权限、文件版本和审批流程;企业客服必须拿到可靠知识库和工单状态。模型如果只会生成“像那么回事”的建议,却不能和真实数据对齐,就会从效率工具变成新的误导源。
行业进入系统化竞争
从英伟达财报、字节 AI 基建投入、Baseten 融资、TELOS 成本优化,到谷歌和电商 AI 暴露的体验问题,这些消息共同指向一个变化:AI 产业的主战场正在从单个模型能力,转向系统化交付能力。一个模型再强,如果底层算力不足、推理成本失控、产品数据不同步、用户体验不稳定,就很难在真实业务里长期站住。
这对云服务和企业 IT 也提出了更高要求。企业要做 AI,不只是接一个 API,也要重新考虑算力来源、网络延迟、数据安全、成本上限、日志审计、故障回退和权限控制。对于需要稳定线上业务的团队来说,AI 服务应该像数据库、对象存储、CDN 和云服务器一样被纳入基础设施管理,而不是只当成一个能写文案的外部工具。
如果从更长期看,AI 公司之间的差距会越来越体现在“综合能力”上:底层有没有足够算力,中层有没有高效推理和调度,上层有没有真正贴近业务的产品,商业层有没有清晰计费和可靠承诺。英伟达正在成为这条链路里的关键收租人,但它也不是唯一赢家。推理服务商、云厂商、芯片公司、模型平台、成本优化工具和行业应用公司,都在围绕同一个目标重新排位:让 AI 从好看的演示,变成可用、可控、可赚钱的生产系统。













暂无评论内容