大模型后训练新发现：用自己生成的数据做「同轨训练」是学生超越导师且不退化的关键

快链头条 2026-06-16 19:59:50

阅读 2,844

据动察 Beating 监测，大模型后训练中的「同轨采样」（即让模型基于自己实时生成的数据进行训练）是防止模型退化、提高解题能力的关键。在线强化学习（RL）与同轨蒸馏（OPD）之所以优于传统的监督微调（SFT），本质在于它们是让模型根据自己写出的步骤进行优化，而不是去死记硬背外部标准答案。

SFT 强行灌输标准答案，会将修改模型的力道均匀施加在每个词上，极易破坏模型原有的知识结构并引发遗忘。相反，RL 和 OPD 让模型在自己写的草稿中寻找并强化最佳步骤。这不仅能避免「开头写错一个词，后面一路走偏」的累积误差，且更新只发生在模型已知的知识区域内，从而最大限度保留原生能力。

在「最小代码编辑」实验中，无论使用 SFT 还是 RL 导师进行同轨蒸馏，学生模型一次性写对代码的成功率（Pass@1）分别达 80.0% 和 78.7%，均超越了导师模型。即使 SFT 导师因过度微调严重「变傻」（在 LiveCodeBench 代码能力测试中从 0.320 跌至 0.286），其带出来的学生模型依然拿到 0.297 的高分，几乎未受导师缺陷拖累，证明同轨练习能有效过滤导师的坏习惯。

目前，DeepSeek-V4 与 GLM-5 已引入同轨蒸馏来合并专家模型能力。在专家训练中，代码和数学等有明确对错的领域更适合 RL，而创意和知识类主观任务更适合同轨蒸馏。未来的终极微调算法，势必要在同轨训练框架下，寻找兼具蒸馏高效率（高信息密度）与 RL 客观性（无偏更新）的新机制。

生成图片