提速4倍且不爆显存,MIT与英伟达发布Lightning OPD:砍掉大模型蒸馏的实时教师服务
快链头条 2026-05-12 19:00:49
据动察 Beating 监测,NVIDIA 与 MIT 研究团队发布了新的大语言模型后训练框架 Lightning OPD(离线同策略蒸馏)。这项技术通过预先离线计算教师模型的对数概率(log-probabilities),彻底砍掉了传统蒸馏训练中必须全程保持在线的实时教师服务,将训练效率提升了 4 倍。
此前,标准的同策略蒸馏(OPD)要求在一台机器上同时运行学生和教师模型。当模型变大时,这种做法极易导致显存溢出(OOM)。Lightning OPD 把所有 GPU 算力都释放给了学生模型。在单节点 8 张 H100 显卡的测试中,Lightning OPD 成功跑通了对 Qwen3-30B-A3B-Base(总参数 300 亿的大型 MoE 模型)的蒸馏,在 AIME 2024 测试中拿到 71.0 分;作为对比,标准 OPD 在同样的硬件配置下直接报 OOM。在更小的 Qwen3-8B 规模上,该框架仅耗时 30 个 GPU 小时就达到了 69.9 分。
研究团队在论文中指出了实现离线蒸馏的一个隐藏前置条件:「教师一致性」。学生模型在监督微调(SFT)和后续的蒸馏阶段,必须使用同一个教师模型。如果不遵守这个原则,梯度的方向就会出现偏差,最终拖垮模型的表现。
快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。
7*24小时快讯
AI语音初创公司Vapi完成5000万美元B轮融资,Peak XV Partners领投
05-12 19:36(6分钟前)
OKX Boost更新交易量规则,DEX主流币等交易可计入活动积分
05-12 19:29(13分钟前)
AI复盘复废了:GPT-5.4把题目满分解法记到只剩54%
05-12 19:10(33分钟前)
德意志银行:将英特尔目标价从63美元上调至100美元
05-12 19:01(42分钟前)
提速4倍且不爆显存,MIT与英伟达发布Lightning OPD:砍掉大模型蒸馏的实时教师服务
05-12 19:00(42分钟前)
eBay已拒绝游戏驿站提出的约560亿美元收购要约
05-12 19:00(43分钟前)
英伟达创始人黄仁勋:AI不会抢走你的工作,但是比你更懂AI的人会
05-12 18:47(1小时前)
为什么你的Agent跑几分钟就罢工?OpenAI工程师:它需要记分牌和外挂记忆
05-12 18:41(1小时前)
热门资讯
风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。