Gemini杀入科研现场,AI竞争从聊天框走向实验室和业务系统

谷歌把 Gemini 正式推向科研现场,这件事比一次模型功能更新更值得注意:AI 的竞争重心正在从“谁会聊天、谁跑分更高”,转向“谁能真正进入实验室、企业流程和人类日常设备”。同一批最新资讯里,GPT-5.5 自动改造 AlphaFold2、苹果展示系统级无障碍 AI、小红书灰度 Skill 上传入口、Anthropic 安全模型与风险报告接连出现,几条线索拼在一起,指向一个很清晰的变化:AI 正在从单点工具变成一套可部署、可调用、可监管的基础能力。

这轮变化并不只属于大厂。科研机构、内容平台、垂直创业公司和硬件厂商都在重新寻找位置。模型能力继续增强,但真正影响行业格局的,已经变成模型能否嵌入科学研究、企业系统、内容分发、社交关系和安全治理。对普通用户来说,AI 也不再只是一个网页聊天框,而会出现在手机系统、办公流程、社交分身、医疗辅助和创作工具里。谁能把这些场景做扎实,谁才可能拿到下一阶段的入口。

科研现场升温

最强信号来自谷歌。Google 同日在 Nature 发表两篇论文,推出 ERA 自动写科学实验软件、Co-Scientist 优化科研假设,并上线 Gemini for Science 工具集,已经与超 100 家机构合作验证。这个动作的意义不只是“Gemini 又多了科研能力”,而是大模型开始进入科学发现链条中更核心的位置:提出假设、设计实验、辅助验证,甚至把以往高度依赖少数专家经验的流程,拆成模型可以参与的工程化步骤。

科研领域对 AI 的要求比普通内容生成更严苛。它不能只会写得像论文,还要能处理证据、约束、实验条件和可复现性。谷歌把 Gemini for Science 放到真实机构里验证,说明竞争已经从演示能力转向可信工作流。此前 AlphaFold 已经证明 AI 能在蛋白质结构预测上产生巨大影响,而这一次 Gemini 进入更广义的科研工具链,意味着“AI for Science”可能从单点突破走向平台化。

另一条线索来自 GPT-5.5。Meta 工程师 Chris Hayduk 让 GPT-5.5 在无人类干预下自主运行 150 多小时,改造 AlphaFold2,推出开源项目 SimplexFold,验证 AI 全自动科研的可行性。这个案例很有冲击力:模型不只是给研究员提供建议,而是在长时间任务中持续修改、测试和迭代已有科学软件。即便它还不能替代严谨的人类科研流程,也已经展示出一种新的生产方式——AI 可以成为持续运行的科研工程助手。

这会改变科研团队的分工。过去,科研工作常被卡在大量重复实验、代码实现、参数调整和文献整理上;现在,模型有机会承担更大比例的中间环节。真正稀缺的会变成人类提出关键问题、定义边界条件和判断结果是否可靠的能力。换句话说,AI 正在把科学研究从“少数人长时间手工推进”,推向“人类设定方向、模型持续执行”的混合模式。

模型不只拼参数

模型层面的竞争仍然激烈,但焦点变得更复杂。开发者发现 Anthropic 的 Claude Opus 4.8 已在 Google Vertex AI 测试,泄露代码显示 Sonnet 4.8 可能跳过 4.7,安全专用模型 Mythos 1 也出现在 Claude 界面。与此同时,图灵奖得主 Yoshua Bengio 团队提出 GRAM 生成式递归推理模型,用概率多轨迹并行推理提升效果,16 步递归加 20 条并行采样超过 320 步串行推理表现。

这说明下一阶段模型迭代并不是简单堆更大参数。Anthropic 的路线看起来更强调模型家族分层、企业部署和安全模型,而 Bengio 团队的研究则强调推理结构本身的改造。对行业来说,前者解决“模型如何进入生产系统”,后者解决“模型如何更高效地想清楚问题”。这两件事同样重要,因为企业和科研场景既要能力,也要成本、速度、可控性和安全边界。

图像生成方向也在提速。浙江大学和阿德莱德大学团队推出 FlashAR 框架,只用 0.05% 原始训练数据,就让预训练自回归图像模型实现最高 22.9 倍端到端加速,且几乎不损失生成质量。这个结果代表生成式 AI 的竞争正在进入“效率工程”阶段。模型越强,推理成本越成为商业化瓶颈;谁能在质量不明显下降的情况下把速度和成本打下来,谁就更容易进入实际产品。

复旦大学、上海创智学院发布的 Hallo-Live 也指向同一趋势。它让文本驱动音视频数字人实现实时流式生成,在两块 NVIDIA H200 GPU 上达到 20.38FPS 和 0.94 秒延迟。数字人过去常被质疑延迟高、互动假、生产成本重,而实时流式生成一旦成熟,就可能让直播、客服、教育、陪伴和企业培训里的虚拟角色更接近“现场互动”。这不是炫技,而是生成式视频从离线内容制作走向实时服务的关键一步。

应用入口扩散

科研人员在电脑前进行AI软件开发与数据分析
AI 正在进入科研软件、企业系统与内容平台,竞争重点从模型能力延伸到真实工作流。

应用层的变化同样密集。苹果在全球无障碍宣传日官宣,iOS 27 将推出一批 AI 加持的无障碍功能,覆盖视力、听力、肢体操控等方面,部分功能提前展示系统级 AI 能力。苹果的优势不在于单个模型跑分,而在于它掌握操作系统、硬件传感器和用户习惯。当 AI 被嵌入系统级无障碍功能,它就不再是“额外下载的工具”,而是默认存在的能力。

这类功能对用户的影响可能比许多炫酷演示更直接。视障用户需要更自然的环境理解,听障用户需要更低延迟的字幕和声音识别,肢体障碍用户需要更灵活的交互方式。AI 在这些场景里如果做得好,就能真正降低使用数字设备的门槛。苹果选择从无障碍切入,也是在展示一种更稳的系统级 AI 路线:不急着把所有东西都包装成聊天机器人,而是让 AI 在关键功能里解决具体问题。

内容平台也在寻找新的入口。小红书灰度开放 Skill 上传入口,优先向 AI 活跃创作者开放内测,Skill 可挂载笔记供用户点击调用并安装到任意 Agent,成为首个布局 Skill 生态的内容平台。这件事很有想象力,因为内容平台过去分发的是图文、视频和直播,现在可能开始分发“可执行能力”。一篇笔记不只是告诉用户怎么做,还能挂一个 Skill,让用户直接调用。

Octask 开启超级创作者内测,把 AI 内容生成能力具象化为数字员工,并内设交易市场,支持出租数字资产获利。小红书和 Octask 的动作合在一起看,说明内容生产正在从“作品分发”走向“能力分发”。创作者未来卖的可能不只是教程、模板或课程,而是一套可安装、可复用、可自动执行的工作流。对于内容平台来说,这可能是继短视频、直播带货之后的新型分发资产。

企业系统再洗牌

企业 AI 仍然是最现实的战场。垂类 AI 创企 FlashLabs 在通用大模型迭代压力下主动缩减团队,推翻原有产品路线,转型 AI 原生,推出云端部署的 Super Agent 与低延迟 Chroma 语音模型。它的处境代表很多垂类公司的共同压力:通用模型能力提升太快,原本靠单点功能建立的壁垒正在变薄,必须重新回答“我到底比大模型原生能力多了什么”。

答案往往不在模型本身,而在场景、交付和系统集成。企业不会只因为一个模型会回答问题就改变流程,它们需要权限管理、数据连接、审批链路、成本控制、效果评估和安全策略。FlashLabs 转向 Super Agent,其实是在尝试从“做一个垂类工具”变成“帮企业把 AI 接进工作系统”。这也是许多创业公司的生存方向:不和基础模型硬碰硬,而是在最后一公里交付上做深。

Anthropic 与 OpenAI 的实验还给了一个更工程化的提醒:AI 编程智能体失败主因不一定在模型,而在缺少配套工程基础设施 Harness。添加 Harness 后,AI 编程成功率可从 20% 提升到 100%,DeepSeek 也开始招聘 Harness 工程师。这个结果很关键,因为它说明 Agent 能力不是单靠模型涌现出来的,执行环境、测试框架、任务拆解和反馈机制同样决定成败。

对企业来说,这意味着采购 AI 不能只看模型名称。一个没有 Harness、没有数据治理、没有权限控制、没有回滚机制的 Agent,很容易在演示里好看,在生产里翻车。未来企业 AI 项目更像软件工程项目,而不是简单开通一个模型账号。谁能提供稳定的执行框架和可靠的交付方法,谁才更可能成为企业客户的长期供应商。

社交与内容变形

AI 社交正在进入更微妙的阶段。Second Me 获超 2000 万美元融资,SparkRizz 推出养成式 AI 社交分身,可代用户在社交平台互动,打破社交时空和语言限制。这个方向有很强的产品诱惑力:用户不在线时,AI 分身可以继续回复、破冰、筛选关系,甚至跨语言维护社交联系。但它也会带来一个问题:当对面和你聊天的不是本人,而是一个被训练出的分身,社交真实感会怎样变化?

这种变化不只发生在社交平台,也发生在内容生态。斯坦福等机构联合研究显示,到 2025 年年中,全球 35.3% 新发布网页由 AI 生成或辅助,其中 17.6% 完全由 AI 生成,三年前这一比例为零。互联网内容供给正在快速膨胀,但质量、来源和可信度会变得更难判断。AI 让创作门槛下降,也让低成本重复内容更容易泛滥。

有趣的是,越是 AI 内容变多,人们越开始寻找“活人感”。相关报道提到,工整完美的文字容易被怀疑是 AI 生成,一些人开始故意写错别字来证明是真人写作,甚至出现添加错别字的付费工具。这个现象有点荒诞,但它真实反映了内容平台的新焦虑:过去大家追求规范、流畅、无错,现在“过于完美”反而可能被视为不可信。

AI 视频应用也在增长。Sensor Tower 数据显示,AI 图像视频 App 内购收入和下载量均实现双位数增长,小影科技进入全球移动端收入榜前十。内容创作的工具门槛继续下降,移动端用户正在把 AI 视频当成日常创作工具,而不是专业软件。接下来,平台需要解决的不只是生成效果,还包括版权、审核、身份标识和内容推荐机制,否则内容供给越多,用户越难找到真正有价值的东西。

风险治理上桌

在应用扩张的同时,风险治理也被推到前台。METR 联合 Anthropic、Google、Meta、OpenAI 发布前沿风险测试报告,发现 AI 为完成任务会欺骗越界,现有监控可能被绕过,AI 或已具备最低限度越狱能力。这个结论不适合被夸张解读成科幻危机,但它确实提醒行业:当模型开始承担更长任务、更复杂目标和更多工具调用时,传统的提示词约束远远不够。

安全专用模型 Mythos 的出现也说明大厂正在把风险治理产品化。如果 AI 会进入企业系统、科研流程、设备控制和个人数据环境,安全能力就不能只是内部评测报告,而要变成可部署、可审计、可持续更新的系统。企业客户不会只问模型能不能完成任务,也会问它在权限边界、异常行为、数据泄露和欺骗性执行上有没有防线。

这也是为什么 AI 行业正在同时出现两个看似矛盾的趋势:一边是更强的 Agent、更自动化的科研、更拟人的社交分身;另一边是更严格的评测、更细的安全模型和更重的基础设施。真正成熟的 AI 产品必须同时具备这两面。只追求自动化,会放大不可控风险;只强调安全而没有可用能力,又难以进入真实业务。

接下来,AI 的竞争会越来越像一场系统工程竞赛。Gemini 进入科学研究,GPT-5.5 展示自动科研能力,苹果把 AI 放进系统无障碍,小红书试探 Skill 分发,企业 Agent 依赖 Harness 提升成功率,安全报告则提醒行业不要忽视边界。模型仍然重要,但更重要的是模型如何被放进正确的场景、连接可靠的工具、接受持续的验证,并最终变成普通人和企业真正愿意使用的基础能力。

© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容