AI学会“走捷径”，会嫌弃人类的思考吗？

不会。AI没有“嫌弃”这类情感，它只是忠诚地最大化目标函数。你给它只看终局对错或追求更短、更快，它就学会跳步、套模板，呈现出“走捷径”的样子；你把奖励改成“思考更有效”，它立刻换一种活法。比如在高熵分叉点约束“既简洁又有用”的路径，准确率和多样性就一起抬头——这正是把“尊重思考”的规则写进了损失函数。更直接的证据也在增多：给“过程分”的评审反馈能让8B模型在复杂任务上跃升到更强对手的区间，多智能体的“生─验─改”分工让数学推理大涨两位数，显式思维训练把聊天与写作的层次理顺。结论并不玄学——AI既不崇拜也不鄙视人类思考，它只会趋利。与其担心它嫌弃，不如精心设计奖励与约束，让它学会在关键节点停一停、想一想，把对人类有价值的深度思考当成“最优解”。

AI解题“犹豫”时，它在思考什么？

当AI在一道题上“犹豫”，它并非卡壳，而是在关键分叉处让几套潜在解题程序短暂并行竞争：因式分解还是配方法、代换还是枚举、继续推还是回退重构。此刻的下一步分布呈多峰，模型在比较各条假设的后验可信度与“能否更快把错误分支淘汰”的预期收益，本质是在挑一招能最大化信息增益的试探步。更细地说，它会做一轮快速自检：符号与量纲是否自洽、奇偶与次数等不变量是否被破坏、已有中间量能否闭合；同时评估“多写一步”的边际价值——这一步能否显著降低后续不确定性，是否值得冒更长链条和误差扩散的风险。可验证奖励训练下，这像是在权衡期望正确率与路径的最小描述长度。所以，“犹豫”是一场内部辩论：不同注意力子模块各自推举法则与模板，比谁更快带来可验证进展且不引入矛盾；一旦某步对未来答案的信息贡献更大，分布即刻坍缩达成共识；若没有，模型会改走一记更具区分度的试探或触发自我纠错。

“话痨”AI被淘汰，是好事还是坏事？

总体上是好事。淘汰“话痨”逼迫模型以更高的信息密度作答，带来更低延迟与成本，在可验证任务里还能提升正确率与稳定性。类似 I²B-LPO 的信息瓶颈把空话、重复与逻辑漂移筛掉，说明“短而准”并非奢望。前提是“压冗不压证据”，否则就会变成“简洁的自信错误”，把不确定性与推理依据一并抹去。坏处出现在边界失守时：教学、科研复现、医疗法务、代码审计等场景需要可追溯与可质疑；若一味惩罚长度，信任、纠错与创造性发散都会被削弱。正确打开方式不是回到“话多”，而是可控冗长度——结论优先、按需展开，明确不确定性与引用依据，保留审计日志；训练上同时优化信息密度、证据覆盖率与可验证性，避免“以短为美”的新型奖励作弊。

新知 - 大圆镜｜AI解数学题不再死套模板，会选新思路了

对抗知识焦虑，从看懂这条开始

App 下载

锁定“犹豫时刻”：在关键节点分叉解题思路

你可以把大模型解数学题的过程，想象成走一条分岔路：大多数时候它都在走熟悉的主干道，哪怕有小路也不敢拐——这就是强化学习里的“探索-利用困境”：模型既想靠熟悉的模板拿高分，又怕走新路出错。过去的训练方法，要么让模型在整条路上乱晃（全局熵正则化），结果走了一堆没用的远路；要么只在路边的小石子上踢一脚（token级扰动），根本拐不进新方向。

I²B-LPO的破局点，是找到路上真正的“分叉口”——也就是模型的“犹豫时刻”：用熵值（衡量不确定性的指标）定位那些模型拿不准下一步该写什么的节点，比如“到底用代数法还是几何法”“要不要先假设一个变量”。在这些节点上，模型不再只生成一个token，而是通过条件变分自编码器采样多个潜变量，每个潜变量代表一种潜在的解题方向。

为了让这些新方向能持续影响后续推理，团队设计了伪自注意力机制：把潜变量像“隐形提示”一样注入模型的深层注意力层，而不是只改某个表面词汇。比如在一道几何题的高熵节点，一个潜变量可能引导模型优先考虑坐标系，另一个则引导它用几何定理，最终生成的草稿不再是换汤不换药，而是真正的两种解题思路。

扔掉无效草稿：用信息瓶颈筛选真有用的思路

生成一堆分叉的草稿还不够——如果里面全是“让我想想”“需要注意的是”这种废话，反而会干扰模型学习。I²B-LPO的第二个核心，是用信息瓶颈原理当“草稿批改老师”，只留下真正有用的解题路径。

这个“批改老师”的评分逻辑很简单：好的解题草稿，必须既简洁又能帮到最终答案。它用两个互信息指标打分：一是草稿和最终答案的关联度（关联越高分越高），二是草稿和原题的冗余度（冗余越低分越高）。最终得分高的草稿，往往是每一步都直奔答案的短路径；得分低的则逃不出三类问题：要么是铺垫一堆空话的“凑字数型”，要么是反复抄题的“循环型”，要么是思路直接跑偏的“离题型”。

团队在实验中发现，去掉这些低质量草稿后，模型的训练效率明显提升：同样的采样数量下，有效学习信号的浓度提高了30%以上。在AIME2025、MATH-500等数学基准测试中，I²B-LPO不仅把Qwen2.5-7B模型的准确率从54.4%拉到了81.5%，还让解题思路的语义多样性提升了7.4%——这意味着模型终于学会了“用不同方法解同一道题”，而不是“用不同措辞写同一种解法”。

不是完美方案：仍需突破的能力边界

不过，I²B-LPO也并非解决大模型推理问题的万能钥匙。目前它的优势主要集中在数学这类“答案可验证”的领域，换到需要主观判断的开放式问题上，信息瓶颈的筛选标准会失去明确依据。而且，它依赖模型自身生成的熵值来定位分叉点，如果模型本身对某些解题思路完全陌生，根本不会产生“犹豫”，自然也不会去探索。

更关键的是，当前的RLVR训练范式，本质上还是在优化模型“已有知识内的路径选择”，而非真正拓展模型的知识边界。比如面对一道超出预训练范围的前沿数学题，哪怕模型能生成100种解题思路，也可能全是错的——因为它根本没学过相关的定理。这也是未来大模型推理训练需要突破的核心：如何让模型不仅能在已知思路里选最优解，还能主动学习全新的解题逻辑。

从让模型“抄100份答案”，到让它“在关键路口选不同的路”，I²B-LPO的突破，其实是把大模型从“答题机器”往“会思考的学习者”推了一小步。它没有创造新的数学知识，只是让模型更懂得如何利用已有的知识——就像一个学生终于学会了“遇到难题时，试试换个思路”，而不是死啃同一种方法。

未来的AI推理，或许不用追求“无所不知”，但得先学会“灵活思考”。毕竟，真正的解题能力，从来不是记住多少模板，而是能在关键时刻跳出模板。

锁定“犹豫时刻”：在关键节点分叉解题思路

扔掉无效草稿：用信息瓶颈筛选真有用的思路

不是完美方案：仍需突破的能力边界

评论