数学家反对AI滥用后，知识基础设施竞争开始重估可信边界-速维云

16 位顶尖数学家起草《莱顿宣言》，反对在数学研究中滥用 AI，并警示算法霸权可能侵蚀作者权益和学术判断，这条消息把 AI 争议从“能不能做题”推到了“谁来定义知识生产规则”的层面。更微妙的是，几乎同一组重点资讯里，Hugging Face 又重建了 Papers with Code，让 SOTA 榜单和论文代码索引重新回到研究者视野；南航、浙大团队推出 LITMUS，用真实操作系统行为评测智能体的执行幻觉；Linus Torvalds 则怒批 AI 生成的低质量漏洞报告正在淹没 Linux 内核安全列表。

这些新闻放在一起看，比单一模型发布更值得警惕：AI 正在进入数学、论文索引、开源协作、安全审计和软件工程这些“知识基础设施”内部。它既能提高检索、复现和自动化效率，也会放大噪声、责任不清和评价失真。下一阶段的 AI 竞争，不只是模型能否给出漂亮答案，而是人类如何把 AI 放进研究、代码和安全流程里，同时保住可验证性、署名权、审稿质量和工程秩序。

数学界的边界感

《莱顿宣言》之所以引发关注，是因为数学长期被视为最适合 AI 展示推理能力的领域之一。近年来，大模型和自动定理证明系统在奥赛题、形式化证明、猜想辅助和文献检索上不断取得进展，外界很容易把“能解题”直接等同于“能替代数学研究”。但数学家们真正担心的，往往不是工具本身，而是研究评价被自动化指标绑架：谁提出问题、谁设计证明路径、谁承担错误责任、谁拥有成果署名，这些都不是一个模型输出答案就能自动解决的。

数学研究的价值也不只在最终结论。一个重要猜想的形成、一个定义的选择、一条证明路线的失败，常常都包含学术共同体的判断与审美。如果 AI 被过度包装成“自动生成知识”的机器，学术平台和机构又急于用产量、速度、引用和榜单衡量成果，研究者就可能被迫围着模型和指标转。宣言反对的不是计算辅助，而是把数学的创造过程简化成可批量生产的文本流水线。

榜单回归的双面性

Papers with Code 的重建则代表了另一面。这个平台曾经是研究者查论文、找代码、看 SOTA 进展的重要入口，关闭后留下了明显空白。Hugging Face 从零重建 paperswithcode.co，并引入 AI 智能体自动解析更新，对于 CVPR 等论文密集场景很有价值：研究者可以更快定位任务、数据集、基准结果和开源实现，企业也能更高效地判断某项技术是否值得跟进。

但榜单越重要，越需要理解它的局限。SOTA 排名解决的是“某个基准上谁更高”，不等于“真实世界谁更可靠”。视觉、语音、代码、智能体和机器人任务都存在同样问题：训练数据可能污染，评测集可能过窄，指标可能无法覆盖长期稳定性、异常处理和安全边界。AI 自动解析论文可以降低整理成本，却也可能把论文里的自我宣传、不可复现实验或上下文缺失结果更快传播出去。知识入口被 AI 增强后，平台更要把来源、版本、复现状态和争议标记做清楚。

执行幻觉浮出水面

南航和浙大团队推出的 LITMUS，把问题进一步推进到智能体执行层。传统大模型幻觉主要表现为说错事实、编造引用或逻辑跳跃；而智能体一旦开始调用工具、操作系统、修改文件和访问网络，幻觉就不只是“说错”，而可能变成“做错”。所谓执行幻觉，正是模型在真实行为层面偏离用户意图或安全边界，却仍以自信方式推进任务。

这类评测非常必要，因为越来越多 AI 产品正在从聊天框走向工作流。开发者让模型改代码，企业让 Agent 写报告、跑脚本、整理数据库，普通用户让助手处理本地文件。只要模型拥有执行权限，错误就会从文字层风险升级为系统层风险。LITMUS 覆盖真实 OS 行为越狱，并尝试量化执行幻觉，说明行业需要的不只是更聪明的模型，还需要可审计、可回滚、可限制权限的运行环境。

开源社区正在承压

Linus Torvalds 对 AI 漏洞报告的批评，则提醒了另一个被低估的问题：AI 可以放大生产力，也可以放大垃圾信息。安全研究本来就需要大量筛选、验证和复现，如果 AI 批量生成的低质量报告涌入内核邮件列表，维护者就要在噪声里寻找真正高危漏洞。对开源社区来说，最稀缺的资源不是文本，而是资深维护者的注意力。

这也是“AI 帮忙找漏洞”叙事里常被忽略的一环。模型可能发现线索，但如果提交者不复现、不解释影响范围、不提供最小触发条件，只是把半成品报告丢给社区，维护成本就会转嫁给别人。长期看，开源项目需要更明确的 AI 生成内容提交规范：报告必须包含可复现步骤、环境信息、影响判断和人工确认；平台也应提供去重、评分和信誉机制，否则真正的问题会被大量自动化噪声掩盖。

研究效率不能脱离责任

AI 进入科研和工程流程后，最理想的形态不是替代人类判断，而是承担重复、检索、整理、初筛和验证辅助工作。比如 AI 可以帮研究者快速归纳论文脉络，帮开发者定位相关代码，帮安全团队初步聚类漏洞线索，也可以在数学研究中提供形式化检查或反例搜索。问题在于，每一步都需要清晰标注“机器做了什么，人确认了什么”。

如果缺少责任链，效率提升很快会反噬信任。论文榜单会被刷分牵引，漏洞列表会被垃圾报告污染，数学成果会陷入署名和原创性争议，智能体执行会让用户难以判断错误来自提示词、模型、工具还是权限设计。真正成熟的 AI 工作流，应该把人工审核、版本记录、证据链、权限隔离和失败回滚设计成默认能力，而不是等事故发生后再补补丁。

知识基础设施的新竞争

从《莱顿宣言》到 Papers with Code 回归，再到 LITMUS 和 Linux 社区的争议，一个清晰趋势正在出现：AI 的主战场正在进入知识基础设施。谁能把论文、代码、数据、评测、安全流程和组织协作连接起来，谁就可能掌握下一代研究和开发入口。但这类入口越强，越不能只追求自动化速度，还要建立可信机制。

对企业和开发者来说，这意味着采用 AI 工具时不能只问“能省多少时间”，还要问“出错后如何发现、如何追责、如何恢复”。对研究机构来说，AI 可以是新的显微镜和检索器，但不该成为绕过同行评议和学术伦理的捷径。AI 确实会改变知识生产方式，只是它能否真正提升人类的研究能力，取决于我们能不能在效率、可验证性和责任之间重新立规矩。

文章版权归作者所有，未经允许请勿转载。

THE END