训练AI，稳定和惊喜哪个更重要？

短期看，稳定性更重要；长期赢，取决于“可控的惊喜”。这篇工作揭示了关键实质：谁的梯度方差小，谁能把模型稳稳收敛。AM/AS 与 NSM在常见流匹配下方差有限，能可靠逼近目标分布；而按路径KL直接优化的 TSM/CSM/iDEM方差发散，所谓“惊喜”多半沦为噪声与崩溃。但生成模型的护城河不在乖巧，而在“受约束的意外”。指数倾斜给了可调旋钮：先用低方差方法把基座训稳，再通过增大倾斜强度λ去提质、配合更大的训练噪声或在采样时调温度/降低CFG、改噪声调度，把多样性与新颖性拉回平衡。做RL式微调时守住熵不塌（如基于协方差的更新抑制与KL正则、AWM重加权），让探索有效而不漂。结论：先稳后奇，奇而可控。

能给AI模型“物理降温”吗？

能。所谓给“AI模型”降温，其实是给承载它的算力硬件散热。现在主流且可落地的物理路径有三条：空调+后门热交换器把机柜散热能力提到约50–80 kW/柜；直冷到芯（冷板水冷）把热直接从GPU/CPU封装带走，整柜密度轻松破100 kW且PUE≈1.1、可用温水回收余热；浸没式（单/两相）把整机泡在介电液里，适合>150 kW/柜的超密集训练集群，但要权衡介电液成本、PFAS合规和运维复杂度。面向下一代3D堆叠和Chiplet，硅内微通道、背部散热器和封装级汽室正把可承受热流密度推向数百W/cm²，配合泄漏检测、冗余CDU与软硬协同限功率，才能避免节流降频。更聪明的“降温”是在源头少生热。你在文中看到的扩散/流模型统一视角里，像伴随匹配、NSM这类方差更小的训练与采样策略，本质上减少无效梯度和采样步数，直接降低每张图、每秒视频的焦耳开销。再叠加扩散蒸馏与少步生成（比如把几十步压到1–4步）、FP8/INT8量化、结构化稀疏、MoE门控激活、KV缓存复用与流水线并行，常能带来10×量级的能效提升，这比事后多加一套制冷更划算。系统侧再用DVFS与功率上限约束，把峰值热瞬态压平，兼顾稳定与吞吐。要提醒的是，物理降温不会“治愈”幻觉或偏见，它做的是让比特可靠、频率不降、寿命更长；行为层面的“退烧”还是要靠更稳的优化目标、数据与评测。最省钱的一瓦，是那一瓦根本没被烧掉。

AI越听话，就越没创造力吗？

不必非黑即白。更“听话”的对齐，确实会把模型的分布拉紧：在扩散模型里，奖励系数λ越大，质量上去、多样性下滑；在语言模型里，过强的偏好对齐常见“客气却保守”的答复。这说明顺从度提升若只奖励“像标准答案”，创意空间会被挤压。但对齐也能放大创造力，关键在“奖什么”。有研究用分层创意评估框架驱动模型，GPT-4 类模型在创意理解任务上超越普通人（约70% vs 50%），把该框架嵌进图生图系统，创意输出还提升了约35%。做法是把新颖性、意料之外但有用的联系、连贯解释一起写进目标，而非只奖励服从。工程上有几根可调旋钮：训练端用多目标奖励（正确性+新颖性/多样性），加入熵或探索奖励，别把λ拧到死；对扩散模型可增大训练噪声或调整采样调度，保留解空间；推理端用温度/Top‑p 控制“发散度”；流程上采用“两阶段”：先让生成器大胆脑暴，再由“裁判”筛合规。这样，模型既听话，也敢想。

新知 - 大圆镜｜微软哈佛统一扩散模型微调采样理论框架

对抗知识焦虑，从看懂这条开始

App 下载

指数倾斜：用一个公式串起所有方法

你可以把生成模型的基础分布想象成一筐混着好果坏果的橘子——预训练模型就是这筐橘子，奖励函数就是挑果的标准。过去的微调方法要么是直接把坏果扔了（强化学习类），要么是给好果贴个显眼标签（分数匹配类），各有各的章法，却没人想过统一的规则。

指数倾斜的思路简单得像买菜：给每个橘子按好坏程度乘一个「人气指数」，好橘子的指数高，在新筐里占比就大，数学上就是把基础分布乘以奖励函数的指数再归一化。这个看似普通的操作，却能把奖励微调、非归一化采样两大核心任务，以及DPO、伴随匹配、CMCD等十几种方法，全部装进同一个框架里。

但真实的机制比买菜更精确：它本质上是对概率分布的「软调整」，既不像硬筛选那样浪费样本，也不像简单加权那样容易失衡。更关键的是，这个统一框架第一次让研究者能像对比不同品牌的手机参数一样，直接比较各种微调方法的核心性能——梯度方差。

梯度方差：决定训练生死的隐藏指标

你大概有过这种体验：用不稳定的Wi-Fi下载文件，进度条一会猛涨一会倒退，最后可能直接失败。生成模型的训练也是如此，梯度方差就是那根Wi-Fi信号——方差越大，训练的噪声就越强，模型参数就像在颠簸的车上写毛笔字，永远写不出工整的结果。

微软哈佛团队的研究捅破了这层窗户纸：他们用偏差-方差分解证明，伴随匹配和新型分数匹配的梯度方差是有限的，就像信号稳定的光纤网络，训练时参数更新平稳，收敛速度快；而传统的目标分数匹配、条件分数匹配，梯度方差会趋于无穷大，相当于Wi-Fi直接断联，训练到一半就会崩溃。

这也解释了为什么很多方法在论文里效果拔群，到自己手里就调崩了——不是你操作错了，是方法本身的「信号稳定性」就差。比如伴随匹配依赖的「瘦身」伴随ODE，能让伴随状态的范数随时间指数衰减，相当于给训练装了个「减震器」，从理论上保证了梯度噪声不会失控。

从实验室到应用场：理论照进现实的边界

在Stable Diffusion 1.5和3上的实验，把理论变成了工程师能直接用的「导航图」：奖励乘子λ越大，图片质量指标（ImageReward、CLIPScore）越高，但多样性（DreamSim方差）会下降；训练时的噪声方差σ调大一点，能找回部分多样性，代价是质量轻微下滑。

但这张地图也有它的边界。研究的理论基础依赖于「基础分布局部强对数凹性」的假设——简单说就是基础模型的分布不能太离谱，得像一个有明确谷底的盆地。可现实中，分子动力学、多模态生成等任务的分布往往是崎岖的非凸地形，这时候理论的「减震器」还能不能起作用，没人能打包票。

更重要的是，目前的实验几乎全集中在图像生成领域，跨模态、非凸场景的验证还一片空白。就像一张只标注了城市道路的地图，拿到山区里可能毫无用处。

当生成AI的工具箱里堆满了各式各样的工具，我们最需要的其实是一张能看清工具本质的说明书。微软哈佛团队的研究，就是把散落的零件拼成了一台能运转的机器，让我们第一次能从底层逻辑上理解「为什么有的方法好用，有的方法会炸锅」。

但这远不是终点。生成AI的终极目标，是能像人类一样灵活创造，而不是在质量和多样性之间做两难选择。指数倾斜的统一框架，只是给我们指了一个方向——真正能穿越非凸地形、跨越多模态鸿沟的工具，还得靠理论和实践的持续碰撞。

统一不是终点，而是让创新走得更远的起点。

指数倾斜：用一个公式串起所有方法

梯度方差：决定训练生死的隐藏指标

从实验室到应用场：理论照进现实的边界

评论