大模型后训练新发现:用自己生成的数据做「同轨训练」是学生超越导师且不退化的关键

快链头条 2026-06-16 19:59:50
阅读 2,844
二维码
微信扫一扫,分享此文章

据动察 Beating 监测,大模型后训练中的「同轨采样」(即让模型基于自己实时生成的数据进行训练)是防止模型退化、提高解题能力的关键。在线强化学习(RL)与同轨蒸馏(OPD)之所以优于传统的监督微调(SFT),本质在于它们是让模型根据自己写出的步骤进行优化,而不是去死记硬背外部标准答案。

SFT 强行灌输标准答案,会将修改模型的力道均匀施加在每个词上,极易破坏模型原有的知识结构并引发遗忘。相反,RL 和 OPD 让模型在自己写的草稿中寻找并强化最佳步骤。这不仅能避免「开头写错一个词,后面一路走偏」的累积误差,且更新只发生在模型已知的知识区域内,从而最大限度保留原生能力。

在「最小代码编辑」实验中,无论使用 SFT 还是 RL 导师进行同轨蒸馏,学生模型一次性写对代码的成功率(Pass@1)分别达 80.0% 和 78.7%,均超越了导师模型。即使 SFT 导师因过度微调严重「变傻」(在 LiveCodeBench 代码能力测试中从 0.320 跌至 0.286),其带出来的学生模型依然拿到 0.297 的高分,几乎未受导师缺陷拖累,证明同轨练习能有效过滤导师的坏习惯。

目前,DeepSeek-V4 与 GLM-5 已引入同轨蒸馏来合并专家模型能力。在专家训练中,代码和数学等有明确对错的领域更适合 RL,而创意和知识类主观任务更适合同轨蒸馏。未来的终极微调算法,势必要在同轨训练框架下,寻找兼具蒸馏高效率(高信息密度)与 RL 客观性(无偏更新)的新机制。

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。