Agent上岗考试:Fable 5最难任务仍交白卷,单题成本高出4到12倍
快链头条 2026-06-12 18:58:25
据动察 Beating 监测,加州大学伯克利分校 RDI 牵头、联合数百名行业专家,推出全新 AI 智能体评测基准 Agents' Last Exam(ALE),用以评估智能体完成真实数字化专业工作的能力。ALE 覆盖 55 个数字化专业子领域,收集了 1500 多个源自人类专家实际项目的验证任务,支持 GUI 与 CLI 交互环境下的结果验证。
首批测试覆盖了 Fable 5、GPT-5.5 和 Composer 2.5 等前沿系统。最新官网对比口径显示,在需要持续推理与深厚专业知识的最难任务中,所有受测智能体的成功率全部为 0%,本周刚发布的 Fable 5 同样交了白卷。这主要是因为评测触发了安全策略,Fable 5 约有 35% 的任务被回退切换至旧版 Opus 4.8 运行,导致整体表现远不及其他榜单抢眼。在单任务 API 成本方面,Fable 5 约为 15.70 美元,远高于 GPT-5.5 的 3.80 美元和 Composer 2.5 的 1.33 美元,相同任务下的开销高出 4 到 12 倍。测试还发现,智能体最普遍的失败原因是过早宣告成功,在没有实际校验结果、甚至遗漏文件或算错数据的情况下便匆忙收工。
针对命令行智能体,评估团队同步发布了子集 ALE-CLI。与已有的 Terminal-Bench 和 SWE-bench-Pro 相比,ALE-CLI 覆盖了 40 个子领域,单项任务的人类平均耗时达到数小时乃至数周。在命令行评测中,表现最好的智能体通过率也仅有 25.2%。评估团队指出,好用智能体的时代已经到来,但离真正能够上岗顶替人类仍有很长的路要走。
快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。