让AI画图前先「想一想」：字节Seed提出UniGRPO，统一优化推理与图像生成 - 快链头条_区块链世界的入口_行情资讯_技术解读_独家深度

让AI画图前先「想一想」：字节Seed提出UniGRPO，统一优化推理与图像生成

快链头条 2026-03-27 19:17:33

阅读 7,031

据 1M AI News 监测，香港中文大学和字节跳动 Seed 团队提出 UniGRPO，一个将文本推理和图像生成纳入同一强化学习回路的统一框架。核心思路是让图像生成模型在画图前先进行链式推理（chain-of-thought），扩展用户提示词，然后用 GRPO 算法同时优化「想」和「画」两个阶段，而非分开训练。

框架基于字节 Seed 的多模态模型 Bagel 构建，将「提示词 → 推理 → 图像」的完整流程建模为一个马尔可夫决策过程（MDP），文本部分使用标准 GRPO，图像部分使用 FlowGRPO。为使框架可扩展至多轮交互和多条件生成（如图像编辑），研究者对 FlowGRPO 做了两处改进：去掉训练阶段的 classifier-free guidance（CFG），消除分支计算开销，保持线性无分支的生成路径；用速度场上的 MSE 惩罚替代潜空间 KL 散度，更均匀地约束模型偏离预训练分布，有效抑制奖励黑客（reward hacking）。

实验以 1024 分辨率训练，UniGRPO 在文本对齐评测（TA Score 0.8381）和组合生成评测 GenEval（0.90）上均优于仅优化图像的 FlowGRPO（0.8208/0.86）和仅优化推理的 TextGRPO（0.8078/0.88），证实联合优化两阶段的增益大于分别优化之和。基于 FPO 的替代方案 UniFPO 训练直接崩溃，未能收敛，侧面验证了 GRPO 在此场景下的稳定性优势。

生成图片

快链头条登载此文本着传递更多信息的缘由，并不代表赞同其观点或证实其描述。
文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。
投资有风险，入市须谨慎。本资讯不作为投资理财建议。

推荐活动

Consensus Hong Kong 2026

2026-02-10 08:00

2026 Consensus The Silent Rise

2026-02-09 13:30

7*24小时快讯

灰度向Coinbase Prime转入约9787枚ETH与446枚BTC

03-27 21:19(17分钟前)

美国30年期国债收益率升至4.986%，为去年9月以来最高水平

03-27 21:09(27分钟前)

Circle宣布将集成USDC和CCTP至Pharos Network

03-27 21:02(34分钟前)

伊朗革命卫队：对以基地和机场发起了毁灭性无人机攻击

03-27 20:57(39分钟前)

易理华：加密市场近4年令人失望，加密中产、散户和VC均被收割

03-27 20:44(1小时前)

智谱官宣GLM-5.1上线，编码能力大幅领先前代，面向GLM Coding Plan全部用户开放

03-27 20:26(1小时前)

万斯拟挂帅美伊和谈，其「反战」立场或助推外交破冰

03-27 20:21(1小时前)

Aster Code登场：打造模组化Web3衍生品基础设施，联手Binance钱包、Trust Wallet、Genius Terminal等共建生态

03-27 20:18(1小时前)

热门资讯

Web3 病了，但解药不是 AI

2026-03-26 11:43:37

连接加密、TradFi 与支付，Gate 正在补齐“超级APP”最后拼图？

2026-03-26 11:39:18

这年头，连黑客都亏钱

2026-03-25 15:01:56

Dragonfly 合伙人：大多数代理将不会进行自主交易，加密支付如何胜出？

2026-03-24 18:06:46

风险提示

根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件，请广大公众理性看待区块链，不要盲目相信天花乱坠的承诺，树立正确的货币观念和投资理念，切实提高风险意识；对发现的违法犯罪线索，可积极向有关部门举报反映。