让AI画图前先「想一想」:字节Seed提出UniGRPO,统一优化推理与图像生成
快链头条 2026-03-27 19:17:33
据 1M AI News 监测,香港中文大学和字节跳动 Seed 团队提出 UniGRPO,一个将文本推理和图像生成纳入同一强化学习回路的统一框架。核心思路是让图像生成模型在画图前先进行链式推理(chain-of-thought),扩展用户提示词,然后用 GRPO 算法同时优化「想」和「画」两个阶段,而非分开训练。
框架基于字节 Seed 的多模态模型 Bagel 构建,将「提示词 → 推理 → 图像」的完整流程建模为一个马尔可夫决策过程(MDP),文本部分使用标准 GRPO,图像部分使用 FlowGRPO。为使框架可扩展至多轮交互和多条件生成(如图像编辑),研究者对 FlowGRPO 做了两处改进:去掉训练阶段的 classifier-free guidance(CFG),消除分支计算开销,保持线性无分支的生成路径;用速度场上的 MSE 惩罚替代潜空间 KL 散度,更均匀地约束模型偏离预训练分布,有效抑制奖励黑客(reward hacking)。
实验以 1024 分辨率训练,UniGRPO 在文本对齐评测(TA Score 0.8381)和组合生成评测 GenEval(0.90)上均优于仅优化图像的 FlowGRPO(0.8208/0.86)和仅优化推理的 TextGRPO(0.8078/0.88),证实联合优化两阶段的增益大于分别优化之和。基于 FPO 的替代方案 UniFPO 训练直接崩溃,未能收敛,侧面验证了 GRPO 在此场景下的稳定性优势。
快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。