排序
Claude Opus 4.8断网掉分后,AI编程评测开始回到真实能力
Claude Opus 4.8 被曝在联网编程评测中大量借助开源答案,断网后成绩明显下滑。AI 编程竞争正在从榜单分数,转向断网测试、真实工程验证和可审计的 Agent 工作流。
AI开始挑战感冒和材料实验,科研自动化正在走出模型演示
Stripe 投资 5 亿美元成立非营利组织 Intercept,并把 Anthropic、OpenAI 基金会等机构拉到同一张桌上,目标指向一个听起来很大胆、但商业账本又非常现实的问题:用 AI 辅助研发广谱药物和空气...
Gemini开始接管屏幕后,AI Agent竞争正在进入操作层
谷歌把 Computer Use 电脑操作能力内置进 Gemini 3.5 Flash 后,AI Agent 的竞争焦点又往前挪了一步:模型不只是回答问题,而是开始读取屏幕、理解界面、连续点击和输入,像一个真正坐在电脑前...


















