Anthropic工作型智能体浮出水面，AI开始进入常驻流程-速维云

Anthropic 的工作型智能体浮出水面

TestingCatalog 从 Claude 代码和隐藏界面中发现的 Conway、Orbit、Operon、BugCrawl 等产品线，把 Anthropic 下一步的产品方向勾勒得很清楚：大模型不再只停留在聊天窗口里，而是要变成能长期在线、主动处理事务、连接工作流和修复代码的系统。相比单次问答，这类智能体更像一个可持续运行的数字同事，需要记住任务上下文、理解权限边界，并在用户不盯着屏幕时继续推进工作。

这件事的重要性不只在于 Anthropic 又多了几条产品线，而在于“常驻型 AI”正在成为大厂竞争的新入口。过去一年，AI 应用的核心卖点多是回答更快、上下文更长、代码能力更强；现在竞争正在转向谁能把模型放进真实组织流程里，谁能让 AI 在设计、开发、科研、安全和运营场景中持续交付结果。Conway 如果真能让 Claude 常驻运行，就意味着 AI 产品形态会从“工具”进一步靠近“岗位能力”。

从代码助手到组织成员

Claude Code 的更新也在强化这个方向。Artifacts 让终端会话成果可以生成自包含、可交互、可分享的 HTML 网页，Team 和 Enterprise 用户能够在组织内私密访问、实时更新和回滚版本。它表面上是一个开发者体验改进，实际触及的是企业内部知识沉淀：一次终端操作、一次调试、一段代码生成结果，不再只是屏幕里的临时输出，而可以变成团队可复用的交付物。

OpenAI Codex 的 Record & Replay 也指向类似趋势。用户演示一遍操作，AI 就能学习并打包成可复用技能，以后自动重复执行同类任务。这类能力让“AI 会写代码”变成“AI 会学习组织里的具体操作”。对企业来说，真正有价值的并不是让模型背下更多通用知识，而是让它理解内部流程、工具链、权限体系和重复任务，并能在安全边界内稳定复现。

世界模型融资继续升温

具身智能和世界模型赛道同样密集升温。Aether AI 获经纬创投领投 2000 万美元融资，主打因果世界模型，希望让机器人不仅知道“下一步做什么”，还理解“为什么要这样做”。这类研究对机器人落地很关键，因为真实世界不是静态图片，也不是固定脚本，机器人需要在动作、环境、反馈之间建立因果关系，才能在陌生场景中少犯错。

Generalist AI 完成 4 亿美元融资，估值达到 20 亿美元，其 GEN-1 用 50 万小时真实操作数据训练，面向精细重复任务给出高成功率；流形空间新一轮融资后 Pre-A 轮累计接近 10 亿元，其 WorldScape 模型强调对环境理解和动作预测；银河通用发布 AstraBrain-WBC 0.5，用 20 亿帧动捕数据训练人形机器人运动模型。几条新闻放在一起看，资本和技术团队正在押注同一个判断：机器人要进入真实场景，核心瓶颈已经从“能不能动”转向“能不能理解环境并稳定泛化”。

开发者工具正在降低复现门槛

alphaXiv 推出的 autoresearch 功能很值得关注。用户只需要改 arXiv 论文 URL，就能自动找代码、配环境、跑最小复现并估算完整复现算力，支持单卡和自有算力。学术论文复现过去常常卡在环境配置、代码依赖、数据集整理和算力估算上，很多研究看起来公开，实际复现成本并不低。autoresearch 把这些环节自动化，等于给论文到工程实践之间搭了一座桥。

快手与中科院大学开源 GoLongRL，也说明长上下文强化学习正在补工程短板。它包含 23K 长上下文 RLVR 样本、训练代码和 TMN-Reweight 算法，覆盖 9 类任务，让 30B 模型在长上下文评测中拿到较高分数。长上下文不是简单把窗口拉大，模型还要学会在长材料里定位、推理、验证和拒绝干扰信息。对搜索、文档问答、代码库理解和企业知识库来说，这类训练资源会直接影响应用质量。

AI 安全与企业特权仍在拉扯

Anthropic Mythos 相关消息显示，约 200 家“玻璃之翼计划”企业仍可使用预览版查找网络漏洞，而部分访问权已被撤销。这个信息背后有一组张力：越强的模型越能帮助企业做安全测试，也越可能带来滥用风险；越早让企业试用，越能积累真实反馈，也越考验访问控制、客户筛选和审计机制。

同样值得注意的是，诺贝尔化学奖得主 John Jumper 加入 Anthropic。他曾领导 AlphaFold 生成近 2 亿种蛋白质结构，是 AI for Science 领域的重要人物。Anthropic 如果把安全、科研和智能体产品线同时推进，说明前沿模型公司正在从“模型能力竞赛”走向“高价值行业问题”。科研、代码、安全和企业流程都不是简单聊天场景，对可靠性、可解释性、权限和长任务执行能力要求更高。

消费端入口也在重新洗牌

小米开源 Xiaomi Miloco 2.0，把多模态感知、主动服务、持续任务和家庭记忆放进智能家居场景，并强调原始数据本地保存。智能家居过去经常被吐槽“不够智能”，核心原因是设备能联网，却不理解家庭情境。多模态模型进入家庭设备后，真正的竞争点会变成谁能在隐私、稳定性和主动服务之间找到平衡。

阿里 ATH 的 HappyOyster 1.0、元象 XVERSE 的 CastLoop、AI 互动影游和陪伴应用，则说明娱乐行业仍然是 AI 应用最容易被用户感知的方向。它们把实时生成、剧情分支、声画同步和用户自定义想法结合起来，让内容从“播放给用户看”变成“跟用户一起生成”。这类产品商业化速度可能很快，但也会带来版权、未成年人保护、内容边界和平台治理问题。

这一波变化的共同信号

把这些资讯放在一起，最清晰的信号是：AI 产品正在从演示能力走向持续执行。Anthropic 的常驻智能体、Claude Code 和 Codex 的开发者工作流、alphaXiv 的论文复现、世界模型公司的机器人训练，都在解决同一个问题：如何让模型在更长链路、更复杂环境、更高责任场景中稳定完成任务。

接下来行业竞争不会只看模型榜单分数，也会看产品是否能接住真实任务。企业会关心权限、审计、成本和交付稳定性；开发者会关心工具能不能接入现有工作流；机器人公司会关心数据闭环和泛化成功率；消费应用会关心体验是否足够自然、边界是否足够清楚。真正能留下来的 AI 产品，往往不是最会制造惊喜的那一个，而是能在日常使用里少出错、能复用、能持续创造价值的那一个。

文章版权归作者所有，未经允许请勿转载。

THE END