Scaling Law原始论文被曝缺陷后,模型竞争开始重算数据和算力账

OpenAI 前研究员 Diogo Almeida 重新审视 2020 年原始 Scaling Law 论文后,把大模型行业一个长期默认的前提拉回了争议中心:如果早期公式在训练预算、学习率衰减和数据效率判断上存在偏差,那么过去几年“优先堆参数”的直觉就不只是技术路线选择,而可能意味着一部分算力投入被错误信号放大了。对正在押注更大模型、更贵集群和更长训练周期的企业来说,这不是学术圈内部的旧账,而是关系到下一轮模型竞争怎么花钱、怎么选数据、怎么评估回报的现实问题。

同一批资讯里,清华特奖获得者顾煜贤加入 DeepSeek,Agent Ontology 被重新讨论,AI 资本开支和硬件销量仍在上行,Gemini 核心贡献者 Adam Brown 又把“超人级 AI 科学家”的想象推到更远处。把这些消息放在一起看,AI 行业并没有因为 Scaling Law 争议而降温,反而进入了更复杂的阶段:模型公司仍要继续投入,但投入逻辑正在从“越大越好”转向“数据、架构、推理、人才和业务落地一起算账”。

Scaling Law 被重新审视

Scaling Law 之所以重要,是因为它给行业提供了一套看似简洁的扩展信仰:当模型参数、训练数据和计算量按一定比例扩大,模型性能会呈现可预测提升。这个判断曾经极大影响了大模型公司的资源配置,也解释了为什么巨头愿意采购海量 GPU、建设更大集群、训练更高参数量的模型。问题在于,如果原始研究中的实验设置让“参数优先”的结论被高估,那么后续很多训练决策就可能把钱花在了并非最优的位置。

Almeida 指出的关键点包括固定 token 预算和余弦学习率衰减带来的偏差。简单说,如果训练数据量没有随着模型规模合理扩展,实验就容易让大模型看起来更值得堆参数;如果学习率衰减策略又影响了不同规模模型的收敛表现,比较结果就未必能公平代表真实训练规律。更值得注意的是,相关讨论还提到当前 Scaling Law 主要基于英语语料,而法语模型在部分效率指标上可能比英语高出 50 至 100 倍。这提醒行业:语言、数据质量和语料结构也会影响模型扩展效率,不能把英文世界里的规律机械套到所有市场。

算力不是唯一答案

过去几年,AI 竞争很容易被讲成算力竞赛。谁有更多 GPU,谁就能训练更大的模型;谁能拿到更低成本的电力和更强的集群调度,谁就能在前沿模型上保持领先。这套逻辑并没有失效,但 Scaling Law 争议让它变得不完整。算力当然仍是门槛,可当训练策略、数据配比和语料质量出现偏差时,更多算力未必自动等于更高效率,甚至可能把错误方向放大。

这也是为什么 AI 产业资本开支仍然上行时,市场更需要拆开看钱流向哪里。硬件销量继续增长、AI 渗透率提升,说明产业仍处在扩张阶段;但扩张不等于所有投入都同样有效。训练端会继续需要 GPU、网络、存储和数据中心,推理端则会推高 CPU、存储芯片、模型路由和缓存系统的需求。下一阶段真正有竞争力的公司,不只是能买到卡,还要能用更好的数据工程、更合理的训练配方和更低成本的推理系统,把每一度电和每一次调用都转化成可衡量的模型能力。

AI训练算力与电路板检测设备
电路板检测设备与芯片制造场景,呼应模型训练背后的数据效率、算力预算与架构选择。

人才流向 DeepSeek

顾煜贤加入 DeepSeek,是这条主线里的另一个信号。他的研究方向包括预训练数据筛选、知识蒸馏和高效模型架构,代表作 Jet-Nemotron、MiniLLM 都和“如何让模型更高效”有关。这样的背景,恰好对应当前模型竞争的变化:行业不再只需要会把参数堆大的团队,也需要懂数据选择、模型压缩、训练效率和架构优化的人。

对 DeepSeek 这类模型公司来说,高效路线尤其关键。前沿模型竞争已经不是单点能力展示,而是训练成本、推理成本、中文场景、代码能力、多模态扩展和产品入口之间的综合战。优秀研究者的加入,未必立刻转化为某个版本号的发布,但会影响底层技术方向:哪些数据值得保留,哪些能力可以通过蒸馏迁移,哪些架构能在成本不失控的前提下获得更强推理能力。Scaling Law 被重新审视之后,这类“少烧冤枉算力”的能力会越来越值钱。

企业 AI 需要业务地图

模型层面的反思之外,Agent Ontology 的讨论也很值得放进同一篇账本里。企业上 AI 的难点,往往不是让模型读懂一份文档,而是让它理解业务对象之间的关系。客户、合同、审批、库存、工单、权限、风险、交付,这些对象不是散落在知识库里的文字,而是企业运行的结构。智能体如果没有业务地图,只靠 RAG 检索和自然语言推断,很容易在真实流程里越界、误判或无法执行。

Agent Ontology 的价值,就是把企业里的对象、关系、动作和规则先定义清楚,再让智能体在这套边界内工作。它和 Scaling Law 争议看似一个在模型训练层、一个在企业应用层,本质上都在反对粗暴堆料:训练模型不能只堆参数,部署 Agent 也不能只堆文档。真正可用的 AI 系统,需要把数据结构、业务规则、工具权限和执行路径一并设计出来。对企业客户来说,这比单次对话表现更重要,因为它决定 AI 能不能进入采购、销售、研发、财务和客服这些有责任链条的场景。

科学想象与工程现实

Gemini 核心贡献者 Adam Brown 关于“数十亿超人级 AI 爱因斯坦”的演讲,把行业想象力推到了物理学和科学发现层面。MATH、GPQA、IMO 等基准被快速攻克,确实说明模型在复杂推理和专业任务上持续进步。若 AI 能在数学猜想、物理建模、新材料和生命科学中形成持续贡献,它带来的就不只是生产力提升,而可能改变科研组织方式。

但越宏大的科学愿景,越需要扎实的工程底座。前沿模型要成为科学助手,不能只会生成漂亮解释,还要能处理实验数据、调用工具、记录过程、复现实验并接受同行审查。Scaling Law 争议提醒我们,通往更强 AI 的道路不会是一条简单曲线;人才流动、数据质量、架构选择、推理成本和企业本体建模,都会影响这条路能走多远。未来的赢家,可能不是最会喊“更大模型”的公司,而是能把模型训练、应用部署和商业回报都算清楚的团队。

行业开始重算投入产出

资本市场对 AI 泡沫的判断,也需要从“涨得快不快”转向“钱花在哪里”。如果核心硬件销量仍在增长、推理需求持续扩大、企业应用能产生可量化 ROI,那么 AI 投入就不只是情绪驱动。相反,如果公司只靠更大参数讲故事,却无法证明数据效率、推理成本和客户留存,就会在下一轮竞争里暴露风险。Scaling Law 原始论文争议之所以引发关注,正是因为它戳中了行业最昂贵的部分:训练决策一旦错,浪费的不是几台服务器,而是完整的资本开支周期。

从这个角度看,AI 行业不是要停止扩张,而是要进入更精细的扩张。模型公司要重新审视数据配比和训练方法,云厂商要证明算力能转化为稳定推理服务,企业应用要把智能体嵌入真实流程,投资人则要区分硬件红利、平台粘性和应用 ROI。热潮仍在,但粗放时代正在结束。接下来,AI 竞争会继续烧钱,却会越来越难接受“先烧再说”的叙事;谁能把每一次扩展背后的技术假设讲清楚,谁才更可能穿过下一轮行业波动。

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容