“博学”的AI为何更强？

“博学”本质是保留并扩张可行解的覆盖面。推理任务的答案分布往往多峰，同一道题可走多条路径。能同时记住并探索这些路径的模型，采样更易撞上正确解，Pass@k自然抬升；相反，模式收缩把概率挤到单一路线，k再大也只是在原地循环。用具质量覆盖性的散度（如forward-KL/JS）来做“零回避”，等于强制新策略别把参考策略中的合理解法压到近零，数学上把多样性锁住。从学习论看，博学让模型停在更“平坦”的极小值：策略熵不塌陷、梯度不极端，遇到分布漂移也不易崩。它还促成功能分工——如在MoE里推动专家分化，把广域知识拆成互补专长；落到具体任务，就是随取随用多种启发式，拼出更长、更稳的推理链。更重要的是，保留多种解释假设能抑制过拟合与“迎合式”回答，使模型在新领域少走弯路、迁移更快。

AI防遗忘术能教我们什么？

它首先在方法论上敲打我们：别把“记忆”当参数，把它当分布。防遗忘的关键不在盲目加熵，而在守住原分布的支撑集——用具备质量覆盖特性的散度（正向KL、JS）对齐到参考策略，让罕见但正确的路径不被压成零；再把“探索”和“保留”显式解耦，用能力估计把已会样本送去“保留头”，难例交给“探索头”。工程上，缓存参考样本与logits即可低成本估计f-div，结合动态权重：哪里遗忘就在哪里加压。对产品的启示更直接：别只盯Pass@1。上线前同时监控“保留率/增益率”、解法覆盖度与OOD回退；推理侧保留温度与采样多样性，或用混合策略、模型汤维持多路径；训练周期性蒸馏回基座，必要时为不同域维持多参考分布。更本质的一条是把“覆盖”升格为一等目标——让模型变强的同时别让旧路消失，这比单纯堆奖励更能换来稳健与泛化。

AI也会“喜新厌旧”？

会，而且机制清晰：在强化学习后训练里，奖励会把梯度推向“最稳拿高分”的少数解法，reverse-KL或干脆无KL都会促使策略向单一模式收缩，策略熵迅速下降，于是“学新忘旧”。这不只体现在推理路径，安全与风格偏好微调同样会让模型口径统一、口癖增多。最直观的体征是：Pass@1上升、但Pass@k下滑；同时相对基模的“分布支持”变窄，许多原本正确但稀有的解被压到近零概率。想要不“喜新厌旧”，不要寄望于调高温度或top‑p（那只是采样表面的多样），关键是在目标函数里保住旧分布的“质量”。除这次提出的forward‑KL/JS等mass‑covering思路外，业内还有几招可叠加：用Fisher加权正则（EWC/L2‑SP）束缚易忘参数；小规模replay重放旧轨迹；冻结主干仅用LoRA学习新偏移；用多参考策略做混合KL给不同风格留生存空间。评估也要换标尺：持续跟踪Keep Rate、token级熵与新旧分布重叠度，比只看平均奖励更能提前预警“遗忘”。

新知 - 大圆镜｜大模型越训越单一？问题出在KL散度选择

内容由AI生成，思考得你完成

App 下载

反向KL：把AI逼进死胡同的“帮凶”

你可以把KL散度理解成AI的“行为紧箍咒”——它用来约束AI在学习新技能时，别偏离自己原本的知识范围。过去大家默认用的是反向KL散度，它的本质是“追着最可能的正确答案跑”。

打个比方，这就像老师只让学生背标准答案，只要答对一次就给高分。学生慢慢就会发现，与其花时间想其他解法，不如死死记住那一种能拿分的答案。反映在AI身上，就是它的解题路径越来越窄，最后只会“押题”，不会“解题”了。

但真实的机制比这个比喻更精确：反向KL散度的数学特性是“模式追踪”，它会让AI的策略快速收敛到少数高概率的正确模式上，对那些概率低但同样有效的解法视而不见。如果完全去掉这个紧箍咒，AI又会像脱缰的野马，彻底偏离原本的知识体系，连老技能都忘得一干二净。

实验里就出现了这种极端情况：研究团队先让AI学会用三种不同风格回答问题，只要看开头就能分辨；可经过标准RL训练后，AI只会用一种风格说话了。

换个散度：给AI留一扇“后门”

既然反向KL是问题的根，那换个散度行不行？研究团队给出的答案是DPH-RL框架——核心就是把KL散度从“紧箍咒”变成“复习笔记”。

他们选择了前向KL散度和JS散度，这两种散度有个关键特性：“覆盖质量”。简单说，它们会逼着AI“复习”原本学过的所有解法，不能只盯着那一种高分答案。就像老师要求学生不仅要答对题，还要能说出所有可能的解题思路，不许偏科。

直给补刀：前向KL散度的约束逻辑是，只要AI原本会某种解法，就不能把这种解法的概率压到几乎为零；JS散度则更平滑，能在稳定性和多样性之间找到更好的平衡。而且这个框架不用在线维护参考模型，只要提前从初始模型里采样就行，训练效率反而更高。

更聪明的是，他们把训练数据分成了两部分：对AI还不会的难题，完全放开约束让它自由探索；对已经掌握的简单题，就用新散度逼着它保留所有解法。这种“因材施教”的训练方式，终于实现了“学新东西不丢老技能”。

实验说话：既答对题，又会想办法

研究团队用Llama3.1-8B模型做了测试，只在SQL数据集BIRD上训练，却要在跨域SQL任务和数学推理任务上验证。结果一目了然：

用反向KL的模型，Pass@1虽然上去了，但Pass@8比基础模型低了不少；而用DPH-RL的模型，不仅Pass@1是最高的，Pass@8还超过了没经过RL训练的基础模型——相当于AI既学会了“一次答对”，又没丢了“多想几种办法”的能力。

在跨域和分布外任务上，差距更明显：所有用传统RL方法训练的模型性能都大幅下降，唯独DPH-RL的模型最接近基础模型的水平，甚至在某些指标上比其他RL模型高出9%。拆解数据后发现，DPH-RL的知识保留率极高，不像传统RL模型那样“学了新的，忘了旧的”。

当然，这个方法也不是万能的：它目前只在文本生成和代码任务上验证过，在机器人控制、多智能体系统等更复杂的场景下，还需要进一步测试；而且如何动态调整散度的约束强度，让AI在探索和保守之间找到最优平衡，还有待研究。

我们总在追求AI的“准确率”，却忘了真正的智能从来不是只会一种标准答案。就像人类解决问题时，从来不是只有一条路可走——有时候，那些“不那么高效”的解法，反而能在新问题上派上大用场。

这项研究最珍贵的地方，不是提出了一个新框架，而是把我们的注意力从“让AI更聪明”拉回了“让AI像人一样思考”。保多样性，比追正确率更重要。毕竟，未来的AI不该是只会背答案的考试机器，而应该是能灵活应变的“解决问题的人”。

反向KL：把AI逼进死胡同的“帮凶”

换个散度：给AI留一扇“后门”

实验说话：既答对题，又会想办法

评论