Scaling Law原始论文被曝缺陷后，模型竞争开始重算数据和算力账-速维云

OpenAI 前研究员 Diogo Almeida 重新审视 2020 年原始 Scaling Law 论文后，把大模型行业一个长期默认的前提拉回了争议中心：如果早期公式在训练预算、学习率衰减和数据效率判断上存在偏差，那么过去几年“优先堆参数”的直觉就不只是技术路线选择，而可能意味着一部分算力投入被错误信号放大了。对正在押注更大模型、更贵集群和更长训练周期的企业来说，这不是学术圈内部的旧账，而是关系到下一轮模型竞争怎么花钱、怎么选数据、怎么评估回报的现实问题。

同一批资讯里，清华特奖获得者顾煜贤加入 DeepSeek，Agent Ontology 被重新讨论，AI 资本开支和硬件销量仍在上行，Gemini 核心贡献者 Adam Brown 又把“超人级 AI 科学家”的想象推到更远处。把这些消息放在一起看，AI 行业并没有因为 Scaling Law 争议而降温，反而进入了更复杂的阶段：模型公司仍要继续投入，但投入逻辑正在从“越大越好”转向“数据、架构、推理、人才和业务落地一起算账”。

Scaling Law 被重新审视

Scaling Law 之所以重要，是因为它给行业提供了一套看似简洁的扩展信仰：当模型参数、训练数据和计算量按一定比例扩大，模型性能会呈现可预测提升。这个判断曾经极大影响了大模型公司的资源配置，也解释了为什么巨头愿意采购海量 GPU、建设更大集群、训练更高参数量的模型。问题在于，如果原始研究中的实验设置让“参数优先”的结论被高估，那么后续很多训练决策就可能把钱花在了并非最优的位置。

Almeida 指出的关键点包括固定 token 预算和余弦学习率衰减带来的偏差。简单说，如果训练数据量没有随着模型规模合理扩展，实验就容易让大模型看起来更值得堆参数；如果学习率衰减策略又影响了不同规模模型的收敛表现，比较结果就未必能公平代表真实训练规律。更值得注意的是，相关讨论还提到当前 Scaling Law 主要基于英语语料，而法语模型在部分效率指标上可能比英语高出 50 至 100 倍。这提醒行业：语言、数据质量和语料结构也会影响模型扩展效率，不能把英文世界里的规律机械套到所有市场。

算力不是唯一答案

过去几年，AI 竞争很容易被讲成算力竞赛。谁有更多 GPU，谁就能训练更大的模型；谁能拿到更低成本的电力和更强的集群调度，谁就能在前沿模型上保持领先。这套逻辑并没有失效，但 Scaling Law 争议让它变得不完整。算力当然仍是门槛，可当训练策略、数据配比和语料质量出现偏差时，更多算力未必自动等于更高效率，甚至可能把错误方向放大。

这也是为什么 AI 产业资本开支仍然上行时，市场更需要拆开看钱流向哪里。硬件销量继续增长、AI 渗透率提升，说明产业仍处在扩张阶段；但扩张不等于所有投入都同样有效。训练端会继续需要 GPU、网络、存储和数据中心，推理端则会推高 CPU、存储芯片、模型路由和缓存系统的需求。下一阶段真正有竞争力的公司，不只是能买到卡，还要能用更好的数据工程、更合理的训练配方和更低成本的推理系统，把每一度电和每一次调用都转化成可衡量的模型能力。

电路板检测设备与芯片制造场景，呼应模型训练背后的数据效率、算力预算与架构选择。

人才流向 DeepSeek

顾煜贤加入 DeepSeek，是这条主线里的另一个信号。他的研究方向包括预训练数据筛选、知识蒸馏和高效模型架构，代表作 Jet-Nemotron、MiniLLM 都和“如何让模型更高效”有关。这样的背景，恰好对应当前模型竞争的变化：行业不再只需要会把参数堆大的团队，也需要懂数据选择、模型压缩、训练效率和架构优化的人。

对 DeepSeek 这类模型公司来说，高效路线尤其关键。前沿模型竞争已经不是单点能力展示，而是训练成本、推理成本、中文场景、代码能力、多模态扩展和产品入口之间的综合战。优秀研究者的加入，未必立刻转化为某个版本号的发布，但会影响底层技术方向：哪些数据值得保留，哪些能力可以通过蒸馏迁移，哪些架构能在成本不失控的前提下获得更强推理能力。Scaling Law 被重新审视之后，这类“少烧冤枉算力”的能力会越来越值钱。

企业 AI 需要业务地图

模型层面的反思之外，Agent Ontology 的讨论也很值得放进同一篇账本里。企业上 AI 的难点，往往不是让模型读懂一份文档，而是让它理解业务对象之间的关系。客户、合同、审批、库存、工单、权限、风险、交付，这些对象不是散落在知识库里的文字，而是企业运行的结构。智能体如果没有业务地图，只靠 RAG 检索和自然语言推断，很容易在真实流程里越界、误判或无法执行。

Agent Ontology 的价值，就是把企业里的对象、关系、动作和规则先定义清楚，再让智能体在这套边界内工作。它和 Scaling Law 争议看似一个在模型训练层、一个在企业应用层，本质上都在反对粗暴堆料：训练模型不能只堆参数，部署 Agent 也不能只堆文档。真正可用的 AI 系统，需要把数据结构、业务规则、工具权限和执行路径一并设计出来。对企业客户来说，这比单次对话表现更重要，因为它决定 AI 能不能进入采购、销售、研发、财务和客服这些有责任链条的场景。

科学想象与工程现实

Gemini 核心贡献者 Adam Brown 关于“数十亿超人级 AI 爱因斯坦”的演讲，把行业想象力推到了物理学和科学发现层面。MATH、GPQA、IMO 等基准被快速攻克，确实说明模型在复杂推理和专业任务上持续进步。若 AI 能在数学猜想、物理建模、新材料和生命科学中形成持续贡献，它带来的就不只是生产力提升，而可能改变科研组织方式。

但越宏大的科学愿景，越需要扎实的工程底座。前沿模型要成为科学助手，不能只会生成漂亮解释，还要能处理实验数据、调用工具、记录过程、复现实验并接受同行审查。Scaling Law 争议提醒我们，通往更强 AI 的道路不会是一条简单曲线；人才流动、数据质量、架构选择、推理成本和企业本体建模，都会影响这条路能走多远。未来的赢家，可能不是最会喊“更大模型”的公司，而是能把模型训练、应用部署和商业回报都算清楚的团队。

行业开始重算投入产出

资本市场对 AI 泡沫的判断，也需要从“涨得快不快”转向“钱花在哪里”。如果核心硬件销量仍在增长、推理需求持续扩大、企业应用能产生可量化 ROI，那么 AI 投入就不只是情绪驱动。相反，如果公司只靠更大参数讲故事，却无法证明数据效率、推理成本和客户留存，就会在下一轮竞争里暴露风险。Scaling Law 原始论文争议之所以引发关注，正是因为它戳中了行业最昂贵的部分：训练决策一旦错，浪费的不是几台服务器，而是完整的资本开支周期。

从这个角度看，AI 行业不是要停止扩张，而是要进入更精细的扩张。模型公司要重新审视数据配比和训练方法，云厂商要证明算力能转化为稳定推理服务，企业应用要把智能体嵌入真实流程，投资人则要区分硬件红利、平台粘性和应用 ROI。热潮仍在，但粗放时代正在结束。接下来，AI 竞争会继续烧钱，却会越来越难接受“先烧再说”的叙事；谁能把每一次扩展背后的技术假设讲清楚，谁才更可能穿过下一轮行业波动。

文章版权归作者所有，未经允许请勿转载。

THE END