AI学推理，为何罚比奖更管用？

因为在可验证推理里，“错”更密、更早、更有力。模型的大部分概率先堆在前几步的高置信错 token 上，给它们一记负梯度，相当于在搜索树的浅层砍枝：整片死路被一次性切掉，释放的概率回流到尚未充分探索的长尾路径，Pass@k 与多样性一起抬升。反过来只“奖”少数已知正路，只会把原本就细的通道拧得更尖，模式塌缩，采样越多越不划算。从优化与数据角度看，“罚”也更干净、更普适。负例在可验证任务里自动标注，在线可学；正例要靠高质量演示，噪声大且容易过拟合。更关键的是，在去条件的预训练空间里，“别走这几步”的梯度跨题目高度对齐，等同给模型加了硬负样本的最大间隔约束，优先纠正“自信却错误”的决策，泛化与采样可扩展性因此更强。但“罚”不是终点。它容易拉长输出、带来发散。好用的配方是“先罚后奖”：先用十几步负强化清障、点燃过渡与反思，再在带条件的空间里用标准RL收口；同时叠加长度或停用词惩罚、KL/熵调度与步长控制。先把荒路清开，再铺柏油，快且稳。

AI的“逻辑直觉”能单独训练吗？

能，而且不必绑在具体题目上。更细的机制证据来自“分解版”RLVR：正向强化会同时压低所有非金牌路径的概率，收窄策略空间；负向强化主要打击那些“自信但错误”的关键 token，既提准又留住多样性，因而在全谱 Pass@K 上更稳。再加上关键 token 视角（聚焦正样本中低概率却正确的步、负样本中高概率却错误的步），能把“直觉”从整条轨迹里剥离出来单练，并解释其为何能迁移到 OOD。实践上，一套有效配方是：短促 NSR 预热（约 10–25 步）在无条件空间先剪枝错误模式，再切回条件 RL 精修；正样本尽量用高质量离线示范而非在线采样；用关键 token 加权替代整序列学习；评估看全谱 Pass@K 与 OOD，而非只看 Pass@1；同时用长度/熵正则与早停抑制“越想越长”。跨模态经验也在呼应这一点：保留探索的训练范式与更好的奖励建模，往往带来更强的泛化“直觉”。

不解题，AI也能偷偷变聪明吗？

能，但不是“凭空开悟”。去掉题目条件优化的是推理轨迹的先验（P(y)），相当于给模型的“思维习惯”做手术：先用负向强化剪掉高置信却错误的分支，再让标准条件化RL细修。这样做更像练基本功而非刷题，直接重排内部的推理空间，因此带来更强的探索和更高的 Pass@k，多样正确路径变多，后续微调也更稳。不过它学到的是“怎么思考得更对”，而不是“知道更多”。没有可靠的可验证奖励（数学、代码这类能判对错的任务），这种预热价值有限；而且容易变啰嗦、偏爱自证性独白，甚至削弱指令跟随。实操上把它当短促预热更安全：控制在十几到二十多步，配合长度/停用词惩罚、KL 约束与再条件化RL收尾。若迁移到非可验证领域，需要更强的批判器或自一致校验，否则“更会想”的错法也会被固化。

新知 - 大圆镜｜不看题目练推理，大模型找到新捷径

对抗知识焦虑，从看懂这条开始

App 下载

想象一下：让你做数学题，却不给你题目，只告诉你“刚才写的步骤全错了，重写”。你会觉得这是恶作剧，但中国科学院自动化所、新加坡国立大学和腾讯AI Lab的研究团队，真的用这种“反常识”方法，让大模型的推理能力在20步内就实现了跃升——推理过渡步骤增加14.89倍，反思步骤增加6.54倍，训练效率比传统方法快3倍。

这不是玄学，而是摸到了大模型的“认知底层”：经过万亿级数据预训练的模型，早已把推理逻辑藏在了参数里，只是被“必须绑定具体问题”的训练规则限制住了。现在，研究团队要做的，就是拆掉这层限制。

从“按题解题”到“直接改脑子”

过去训练大模型推理，就像给学生做专项刷题：给一道题（输入x），让模型写解题步骤（输出y），然后根据答案对错给奖励，本质是优化“看到x后输出y的概率P(y|x)”。但问题是，大模型在预训练时已经学过无数数学题、逻辑题的解题逻辑，这些知识就像存在脑子里的“解题模板库”，只是平时做题时，它只会调用和当前题目匹配的模板。

新方法PreRL直接跳过了“题目”这一步，它不管模型面对的是什么题，只看模型写出来的推理步骤本身，直接优化“写出合理推理轨迹的概率P(y)”——相当于不看学生做的是哪道题，只看他写的解题思路对不对，对就强化，错就修正。

你可以把这个过程想象成：老师不看学生的作业题，只看他的草稿纸，只要草稿纸上的推导逻辑是对的，就给他加分，不管他在解哪道题。这样一来，学生就会把精力放在打磨通用的推导逻辑上，而不是死记某类题的解法。

更关键的是，研究团队通过理论和实验验证：这种“直接改脑子”的优化方向，和传统“按题解题”的优化方向高度对齐——也就是说，这么练出来的能力，完全能用在实际解题上，不是空架子。

负样本：比正确答案更有效的催化剂

有意思的是，研究团队发现，在这个“预训练空间”里，正样本强化（给正确推理步骤奖励）几乎没用，甚至会让模型的推理多样性下降——就像让学生反复抄正确答案，最后只会死记硬背，不会灵活推导。

真正起作用的是负样本强化：只给错误的推理步骤“扣分”，也就是告诉模型“你刚才写的这个推导逻辑是错的，以后别这么想”。仅仅20步负样本训练，模型的推理过渡步骤（比如从“已知条件A”推到“可以得出B”）就增加了近15倍，反思步骤（比如“刚才的推导有问题，应该换个方向”）增加了6.5倍，用3倍更少的训练步数就达到了86%的准确率。

这背后的逻辑很简单：大模型预训练时已经学过无数正确的推理逻辑，但也夹杂了很多错误的“思维定式”。负样本强化就像一把剪刀，快速剪掉那些错误的思维分支，让模型的注意力自然集中到剩下的正确逻辑上。就像给一棵树剪枝，去掉枯枝败叶，剩下的枝干才能长得更粗壮。

当然，这种方法也有局限：只剪枝不引导，模型可能会陷入“为了避免错误而写更长的步骤”的怪圈，导致输出越来越冗长。所以它更适合做“热身训练”，为后续的精细化训练打基础。

双空间训练：把热身和刷题结合起来

研究团队在PreRL的基础上，提出了双空间强化学习（DSRL）：先让模型在“预训练空间”里做20步左右的负样本热身，剪掉错误思维分支，激活通用推理能力；再回到传统的“按题解题”空间，用标准强化学习做精细化刷题。

这种组合拳的效果远超单一方法：在MATH500、AMC23等6个数学推理基准测试中，DSRL在Qwen3-4B和Qwen3-8B模型上，全面超越了PPO、GRPO等当前主流的强化学习方法。其中Qwen3-4B在AIME24基准上，比GRPO高出4.69分；Qwen3-8B的平均得分达到58.47，是所有测试方法中的最优解。

更重要的是，DSRL还解决了传统方法的“泛化能力差”问题：在分布外任务（比如没见过的题型、知识密集型任务）上，它的表现也明显更好——Qwen3-4B在GPQA-Diamond（知识问答）上比GRPO高3.79分，在MMLU-Pro（多学科推理）上高5.37分。这说明，经过预训练空间的热身，模型的推理能力不再是“刷题刷出来的应试技巧”，而是真正的“通用逻辑思维”。

不过，这种方法也不是万能的：热身步数需要精准控制，太少激活不了推理能力，太多则会让模型过度发散；而且目前只在数学推理任务上验证了效果，在其他复杂推理任务（比如逻辑推理、代码生成）上的表现还需要进一步测试。

当我们还在纠结怎么给大模型出更多、更难的题时，研究团队已经跳出了“刷题”的框架，直接去激活模型本身已经具备的能力。这就像我们一直以为要让运动员跑得快，就得让他每天跑更多公里，却忘了其实可以先帮他调整呼吸、优化步姿——那些藏在身体里的潜力，才是最值得挖掘的。

大模型的“涌现能力”从来不是凭空出现的，而是预训练时埋下的种子，只是需要合适的方法去唤醒。这次的研究，就是找到了一把唤醒种子的钥匙：与其在“解题”的表层反复打磨，不如直接去优化“思考”的底层逻辑。

好的训练，不是教模型做题，而是教它怎么思考。

从“按题解题”到“直接改脑子”

负样本：比正确答案更有效的催化剂

双空间训练：把热身和刷题结合起来

评论