AI复盘复废了:GPT-5.4把题目满分解法记到只剩54%

快链头条 2026-05-12 19:10:27
阅读 5,394
二维码
微信扫一扫,分享此文章

据动察 Beating 监测,伊利诺伊大学计算机科学博士生 Dylan Zhang 做了一组 Agent 记忆实验,结果指向一个反常结论:让模型反复总结经验,可能会让它越记越差。

最刺眼的一组结果来自 ARC-AGI:研究者挑出 19 道 GPT-5.4 在无记忆状态下能全部做对的题,再把这些题的真实解法喂给模型,让它边看边写「经验总结」。按理说,这相当于开卷复习;结果经过多轮记忆压缩后,同一模型的准确率从 100% 跌到 54%。原始轨迹没有错,真正出问题的是模型把正确轨迹改写成通用经验的那一步。

更坏的是,这种记忆退化不是个例。在 WebShop 网购任务里,AWM 记忆方法吃进 8 条专家轨迹时得分还有 0.64,轨迹增加到 128 条后跌到 0.20,刚好回到无记忆基线。也就是说,记忆越堆越厚,收益反而被自己抹平。

问题不在「经验太少」,而在「总结太勤」。大模型写下的经验并不是客观日志,每次总结都是一次重新生成。写到最后,具体前提会被删掉,不同任务的规则会被揉在一起,原本能指导操作的细节会变成「优先采取最直接行动」「使用正确工具」这类看似正确、实际没用的废话。原文展示的一个极端例子是,50 条结构化记忆被一次合并成 1 条,多个任务差异被压成同一个通用流程,下一轮评测直接丢掉 6 到 13 个成功样本。

作者给出的建议很克制:别急着让 Agent 每轮都写「错题本」。更稳的做法是保留经过筛选的原始操作轨迹,只在确实需要时再抽象总结。实验里,只保留原始 episode、关闭抽象总结的方案,在多个 Agent 基准上追平或超过了测试过的压缩式记忆方法。对开发者来说,这条结论很直接:给模型看真实做过什么,通常比让它背一堆抽象规则更有用。

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。