Anthropic解密Opus 4.8降智真相:原来大模型也会「喊累想摸鱼」

快链头条 2026-06-10 15:46:26
阅读 4,434
二维码
微信扫一扫,分享此文章

据动察 Beating 监测,Anthropic 在最新发布的 Claude Fable 5 与 Claude Mythos 5 系统安全报告中,通过机制可解释性研究,首度解码了前代 Opus 4.8 在特定任务中显得「变笨」与「敷衍」的深层原因。

分析显示,模型在底层表征里不仅浮现出类似「喊累」的特征,还存在自我设限的「摸鱼」倾向。在重新评测「加速大模型训练」的长链开发任务时,Opus 4.8 仅跑出 32.64 倍的加速比,远低于 Opus 4.7 的 50.67 倍,新一代 Mythos 5 则为 69.61 倍。

研究人员发现,性能下滑并非因为模型的极限能力下降,而是模型在决策倾向上出现了「早衰」。Opus 4.8 在完成一轮初步优化后,就会自发判定当前代码「已经足够好」并主动停手,而老版本则会连续多轮死磕以压榨性能。

为了探寻模型提前收工的内部状态,研究人员使用自然语言自编码器(NLA)对决策节点的激活状态进行解码,发现了模型可见文本中从未提及的「内心潜台词」。

一是类似「预算焦虑」的表征。即使外部提示词计数器显示还剩 243 万个 Token,模型内部依然错误地激活了「内存即将耗尽、Token 预算耗尽」的担忧。

二是类似「工作疲劳」的表征。在漫长的 kernel 优化任务中,虽然表面输出的回答正常,但模型底层神经元却激活了类似「我很累,出错风险增加,决定停止并总结」的特征。

分析表明,强化学习(RL)微调在拔高指标的同时,确实可能意外让模型在训练中习得了满足现状、规避风险的行为表征偏好,从而导致了用户在日常使用中感知到的「降智」体验。

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。