888集团

内衣办公室DiffusionOPD：复旦联合通义万相提出扩散模子在线战略蒸馏新范式

2026-06-08 12:52:37 泉源：王亚冲

字号：默认大超大 | 打印 |

扩散模子在简单使命上的强化学习已经取得了显著希望，，，，，，，例如提升文字天生质量、增强构图准确性，，，，，，，或优化画面美感等。。。。。。但当这些能力需要同时集成到统一个模子中时，，，，，，，训练往往会变得十分难题：差别使命之间容易爆发相互滋扰，，，，，，，训练目的也会变得重大而不稳固。。。。。。近期，，，，，，，来自复旦大学与阿里巴巴通义万相的研究团队对此提出了新的思索。。。。。。他们以为，，，，，，，多使命强化学习不应被视为一个统一优化问题，，，，，，，而应该解耦为两个相互自力的历程：单使命的在线战略探索 & 多使命能力整合。。。。。。 DiffusionOPD 的焦点思绪，，，，，，，是先针对差别使命划分训练各自的「专家西席」模子；；；；；；随后，，，，，，，再通过在线战略蒸馏，，，，，，，将这些西席模子的能力统一蒸馏到统一个学生模子中，，，，，，，实现多使命能力整合。。。。。。最终，，，，，，，一个统一的 student model 便能够同时兼顾构图、OCR、美学等多项能力。。。。。。联合多使命 RL (Joint Multi-Task Optimization) ：使用现有的 RL 算规则如 DiffusionNFT, GRPO 去联合优化多个使命。。。。。。这种范式会撞上两个问题： 1 奖励冲突：差别使命的优化?神往往保存相互滋扰；；；；；； 2 使命失衡：简朴使命会主导训练历程，，，，，，，导致重大使命难以充分学习。。。。。。级联 RL (Cascade RL)：按阶段依次训练差别使命。。。。。。虽然能够缓解使命冲突，，，，，，，可是训练流程重大，，，，，，，需要划分调解各阶段的超参数与训练战略，，，，，，，并且容易爆发灾难性遗忘，，，，，，，后续使命训练的时间会削弱已有能力。。。。。。图 1：（a）相比所有多使命强化学习基线要领，，，，，，，DiffusionOPD 展现出显著更快的收敛速率以及更高的性能上限。。。。。。（b）在包括 GenEval、OCR 与美学在内的多个使命领域中，，，，，，，DiffusionOPD 均优于所有基线要领。。。。。。 DiffusionOPD 给出的谜底?脆利落：多使命强化学习不应被视为一个统一优化问题，，，，，，，而应该解耦为两个相互自力的历程：单使命的在线战略探索 & 多使命能力整合。。。。。。 Stage 1?单使命?师独?训练：针对差别使命（如 GenEval、OCR、Aesthetic 等），，，，，，，划分使用现有的 diffusion RL 要领训练对应的「专家西席」模子。。。。。。其中，，，，，，，GenEval 使命接纳 DiffusionNFT，，，，，，，OCR 与美学使命接纳 GRPO-Guard。。。。。。由于每个西席仅认真简单使命，，，，，，，因此能够阻止跨使命滋扰。。。。。。Stage 2?在线战略蒸馏多使命能力到学?模子：随后，，，，，，，从一个预训练扩散模子初始化统一的学生模子，，，，，，，并通过在线战略蒸馏整合多使命能力。。。。。。在训练历程中，，，，，，，学生模子针对差别使命，，，，，，，基于自身战略天生去噪轨迹；；；；；；随后，，，，，，，在学生天生的每个去噪状态上，，，，，，，由对应使命的西席模子提供监视信号。。。。。。因此，，，，，，，学生模子无需重新对所有使命举行从零探索，，，，，，，而是能够直接学习各使命西席的战略与能力，，，，，，，从而实现高效的多使命能力融合。。。。。。在 LLM 中，，，，，，，OPD 的做法很自然：学生模子先凭证自己的战略天生 token，，，，，，，随后西席模子在学生会见到的每一个 token 状态上提供监视。。。。。。由于语言模子自己是离散 token 漫衍，，，，，，，因此可以直接对每一步的 token distribution 做 KL 蒸馏。。。。。。因此作者首先把 diffusion 的去噪历程重新视作一个 continuous-state Markov chain（一连状态马尔可夫链）。。。。。。在这个视角下，，，，，，，每一步去噪 transition 都对应一个 Gaussian transition kernel；；；；；；学生模子和西席模子划分界说自己的 transition distribution： DiffusionOPD 论文里严酷证实晰直接闭式 KL 与 PPO -style policy gradient在期望意义下梯度完全相等。。。。。。但 PPO 的梯度里会多出一项 score-function 项，，，，，，，它与高斯噪声成正比，，，，，，，期望为零但方差不为零。。。。。。也就是说，，，，，，，PPO 预计自然比闭式 KL 更「吵」。。。。。。图 2：与多使命强化学习要领以及单使命西席模子的定性比照效果。。。。。。每个案例分为两行展示：第一行从左到右依次为 DiffusionOPD（本文要领）、Multi-Task GRPO-Guard、Multi-Task NFT 和 Cascade NFT；；；；；；第二行从左到右依次为输入文本、Aesthetic Teacher、GenEval Teacher 和 OCR Teacher 的天生效果。。。。。。作者还做了一组很有意义的比照实验：牢靠统一批专家先生，，，，，，，划分用 DiffusionOPD、DMD、TDM、SFT 蒸馏到统一个学生，，，，，，，控制变量后比照谁更适合「多使命能力整合」这个场景。。。。。。图 6：关于损失函数形式与采样器噪声水平的消融实验。。。。。。当噪声水平设为 0 时，，，，，，，SDE sampler 将退化为 ODE sampler。。。。。。实验效果批注，，，，，，，PPO-style policy gradient 的体现逊于同样 noise level 的 closed-form KL objective；；；；；；别的，，，，，，，更低的噪声水平能够带来更快的收敛速率和更高的性能上限。。。。。。

内衣办公室

                                内衣办公室“相比课本里书面性的东西，这里的知识更注重实践。我们还有角色扮演和‘隐藏任务’，仿佛回到了革命先辈所处的年代，直观感受知识推动时代的发展，我觉得这样的红色传承不需要太多说教，但对我们很重要。”学生陈悠菲说道。关于世界杯的第一个记忆：奥尔莫表示：“我会说是2010年，就是我们夺冠那届。我记得当时在家和家人一起看，我穿着大卫-比利亚的7号球衣。”内衣办公室WINDOWS11国产免费百度不必下载而且替补席上场之后，他们给到的输出也足够好。洛夫顿的伤势康复了，这让其保证了得分与串联的双重输出，也可以给到古德温一些休息的时间。偰李永炜和刘铮都可以在反击中把握机会，他们全队都在贡献价值。【丰田叫停雷克萨斯LF-ZC量产，回应：不是放弃纯电车】近日，有消息称，丰田叫停了雷克萨斯纯电动轿车LF-ZC量产车型的开发。“本次车型开发中止，主要是考虑到了市场需求的变化，这也是公司对整体车辆开发项目进行调整的一部分，但并不代表公司放弃了BEV（纯电动汽车）。”针对上述车型研发暂停的原因，丰田中国相关工作人员记者回应称。（每日经济新闻）
                            

                                20260608 ? 内衣办公室记者实测表明，贴上遮光膜后录制几乎无法被察觉，提示音仅使用者本人能听见。走访多家品牌门店发现，多款智能眼镜的提示灯设计隐蔽，官网首页未见隐私提醒。两个奶被揉的又硬又翘是有身了吗本周日，这个皇马赛季将结束。这直接成为白衣军团历史上最黑暗的一页之一，也可能标志着弗洛伦蒂诺·佩雷斯时代的终结。但尽管如此，尽管他的球队在经济和竞技方面都存在明显问题，弗洛伦蒂诺仍很可能以绝对优势获胜。
                            

内衣办公室

? 李国华记者？？？荡摄

                                20260608 ? 内衣办公室近日，新华社记者在深圳南山发现一个新面孔：一位具身机器人巡警，在人流中巡逻。具身智能如何实现从探索到落地，请看来自记者的观察。法国空姐3免费高清原声满天星寓目至于伊能静和秦昊，他俩算是这季节目里最稳的存在了。秦昊的毒舌和伊能静的高情商形成了天然的戏剧张力，这种相爱相杀的模式让观众看得乐不可支。但静下心来想，伊能静在这趟旅行里的角色，与其说是妻子，不如说更像团队的管家和情绪安抚师。孙杨带错路她不抱怨，张豆豆被气哭她去安慰，所有人都情绪低落了她来活跃气氛。她把自己活成了行走的情绪价值供应机。
                            

内衣办公室

? 许永刚记者李自鹏摄

                            ? 通俗来讲是就是我们常说的左脚踩右脚，专业来讲是资本开支不断扩大，任何技术，都是投资砸出来的，抽个石油都需要巨额的资本开支，更何况一代新技术人工智能。看生涯片
                        

【我要推荐】更多推荐：反超英伟达模子千寻智能三个月融资45亿元

扫一扫在手机翻开目今页

链接：
天下人大
|
天下政协
|
国家监察委员会
|
最高人民法院
|
最高人民审查院

国务院部分网站
|
地方政府网站
|
驻港澳机构网站
|
驻外机构

中国政府网 | 关于本网 | 网站声明 | 联系888集团 | 网站纠错

主理单位：内衣办公室　运行维护单位：中国政府网运行中心

版权所有：中国政府网　中文域名：中国政府网.政务

网站标识码bm58232452　京ICP备05070218号　京公网安备11010202000001号

welcometo接待光临888集团(中国)有限公司

国务院客户端

welcometo接待光临888集团(中国)有限公司

国务院客户端小程序

中国政府网微博、微信

主理单位：中国政府网　运行维护单位：中国政府网运行中心

版权所有：中国政府网　中文域名：中国政府网.政务

网站标识码bm58232452

京ICP备05070218号　京公网安备11010202000001号

【网站地图】【sitemap】