Agent上岗考试：Fable 5最难任务仍交白卷，单题成本高出4到12倍

快链头条 2026-06-12 18:58:25

阅读 5,365

据动察 Beating 监测，加州大学伯克利分校 RDI 牵头、联合数百名行业专家，推出全新 AI 智能体评测基准 Agents' Last Exam（ALE），用以评估智能体完成真实数字化专业工作的能力。ALE 覆盖 55 个数字化专业子领域，收集了 1500 多个源自人类专家实际项目的验证任务，支持 GUI 与 CLI 交互环境下的结果验证。

首批测试覆盖了 Fable 5、GPT-5.5 和 Composer 2.5 等前沿系统。最新官网对比口径显示，在需要持续推理与深厚专业知识的最难任务中，所有受测智能体的成功率全部为 0%，本周刚发布的 Fable 5 同样交了白卷。这主要是因为评测触发了安全策略，Fable 5 约有 35% 的任务被回退切换至旧版 Opus 4.8 运行，导致整体表现远不及其他榜单抢眼。在单任务 API 成本方面，Fable 5 约为 15.70 美元，远高于 GPT-5.5 的 3.80 美元和 Composer 2.5 的 1.33 美元，相同任务下的开销高出 4 到 12 倍。测试还发现，智能体最普遍的失败原因是过早宣告成功，在没有实际校验结果、甚至遗漏文件或算错数据的情况下便匆忙收工。

针对命令行智能体，评估团队同步发布了子集 ALE-CLI。与已有的 Terminal-Bench 和 SWE-bench-Pro 相比，ALE-CLI 覆盖了 40 个子领域，单项任务的人类平均耗时达到数小时乃至数周。在命令行评测中，表现最好的智能体通过率也仅有 25.2%。评估团队指出，好用智能体的时代已经到来，但离真正能够上岗顶替人类仍有很长的路要走。

生成图片