AI复盘复废了：GPT-5.4把题目满分解法记到只剩54%

快链头条 2026-05-12 19:10:27

阅读 5,394

据动察 Beating 监测，伊利诺伊大学计算机科学博士生 Dylan Zhang 做了一组 Agent 记忆实验，结果指向一个反常结论：让模型反复总结经验，可能会让它越记越差。

最刺眼的一组结果来自 ARC-AGI：研究者挑出 19 道 GPT-5.4 在无记忆状态下能全部做对的题，再把这些题的真实解法喂给模型，让它边看边写「经验总结」。按理说，这相当于开卷复习；结果经过多轮记忆压缩后，同一模型的准确率从 100% 跌到 54%。原始轨迹没有错，真正出问题的是模型把正确轨迹改写成通用经验的那一步。

更坏的是，这种记忆退化不是个例。在 WebShop 网购任务里，AWM 记忆方法吃进 8 条专家轨迹时得分还有 0.64，轨迹增加到 128 条后跌到 0.20，刚好回到无记忆基线。也就是说，记忆越堆越厚，收益反而被自己抹平。

问题不在「经验太少」，而在「总结太勤」。大模型写下的经验并不是客观日志，每次总结都是一次重新生成。写到最后，具体前提会被删掉，不同任务的规则会被揉在一起，原本能指导操作的细节会变成「优先采取最直接行动」「使用正确工具」这类看似正确、实际没用的废话。原文展示的一个极端例子是，50 条结构化记忆被一次合并成 1 条，多个任务差异被压成同一个通用流程，下一轮评测直接丢掉 6 到 13 个成功样本。

作者给出的建议很克制：别急着让 Agent 每轮都写「错题本」。更稳的做法是保留经过筛选的原始操作轨迹，只在确实需要时再抽象总结。实验里，只保留原始 episode、关闭抽象总结的方案，在多个 Agent 基准上追平或超过了测试过的压缩式记忆方法。对开发者来说，这条结论很直接：给模型看真实做过什么，通常比让它背一堆抽象规则更有用。

生成图片