砍掉AI的思考“废话”，反而更聪明了？

在很多任务上，砍掉“废话”确实更聪明。原因不在于少了思考，而是把思考从冗长的语言链条挪回模型内部：Transformer本就并行汇聚多条证据路径，长链往往只是事后叙述。当把这些中间步骤压缩成固定长度的隐式向量，串行解码被一次前向所替代，减少了暴露偏差和自我回溯噪声，往往还能更专注地命中约束条件；在同样的算力与token预算下，准确率更抗压，延迟与成本同步下降。但“少说话≠不思考”。隐式表征属于有损压缩，在需要可验证推导的数学证明、代码生成、安全审计等场景中，缺失可追溯的链条会放大错误代价，也削弱合规与风控。更稳妥的路径是混合范式：默认隐式快推，遇到高不确定度或冲突信号再切换到显式长链并叠加验证器；同时监控隐向量的统计特征、做小样本抽检，维持可控与可解释。真正的聪明，是把算力花在关键节点，而非用文字铺满过程。

当AI不再“自言自语”，黑箱会更黑吗？

不一定更黑。显式“自言自语”多是事后叙事而非忠实计算：多项实验表明，随机丢弃约50%的推理链，准确率只跌约2%，长CoT还会分散对关键约束的注意力。与其说LRT拿走了透明度，不如说它拿走了“透明的错觉”。而且固定长度的隐式向量更稳定、可控，便于做因果探针和表征对齐，往往比追几千字自述更可审计。要防止真的变黑，关键是把“看不见”的部分制度化为可见证据：训练期用步级对齐/辅助解码器把隐式token可逆映射为人类可读步骤（推理时移除，零额外开销）；部署期记录隐式向量与关键激活，配套约束校验器、反事实与激活修补测试，周期性用稀疏自编码器做特征归因，并用“约束注意力”等指标做合规监控。这样做，少了自言自语，黑箱反而更可测、更可控。

AI学会了“直觉”，我们还能相信它吗？

把“直觉”理解为模型在隐藏空间里的潜在推理：它更快，但更难被人读懂。要不要信？别把“可读步骤=真实思考”当前提——研究显示，删去一半思维链准确率几乎不变，说明我们看到的解释本就带有“合理化”。信任应转向“能被验证的结果”，而非“看起来会思考”。想放心用这种“直觉”，关键是把验证前置：让模型自估不确定并允许弃答；不确定时切回慢思考或调用外部工具（求解器、检索、代码与定理校验器）；对同一问题多样化采样并投票；对输出施加结构与约束检查（单位、范围、平衡式）；记录潜在token并用探针译码，便于事后审计与定位失效。仍要警惕奖励黑客、分布外转移和高置信幻觉。用长尾红队集、反事实与激活修补做因果核验，在线监测校准漂移；把场景分层：高风险任务执行“证据优先”，没有可检证证据不落地；低风险场景则拥抱隐式快答。结论：可以信，但要信经验证的系统，而非它的“直觉”。

新知 - 大圆镜｜大模型的自言自语，居然大半都是废话

对抗知识焦虑，从看懂这条开始

App 下载

当你问AI一道简单的数学题，比如“17乘24等于多少”，它可能会输出整整三行推理：“首先计算10乘24得240，然后7乘24等于168，最后240加168等于408”——明明可以直接给出答案，它偏要像个刚学算术的孩子一样碎碎念。

这不是某款模型的特例，从OpenAI o1到DeepSeek-R1，如今的推理型AI都爱“自言自语”。但2026年4月，哈尔滨工业大学（深圳）团队的实验捅破了一层窗户纸：如果随机删掉这些推理链里50%的内容，AI的答题准确率只下降2个百分点。

那些冗长的思考步骤，真的全都必要吗？

被拆穿的“过度思考”

你可以把AI的推理链想象成一个人写解题过程，明明一步就能算出的题，偏要把草稿纸上的涂改、验算甚至自我怀疑都一字不差抄下来。团队在DeepSeek-R1的蒸馏模型上做了一组狠实验：他们像批改作文一样给推理链“删改”——要么随机跳token，要么直接砍掉整段推理步骤，然后看AI还能不能答对。

结果让所有人意外：

删掉50%的推理内容，准确率只掉2个百分点；
哪怕删掉70%，AI依然能答对超过80%的题目。

这意味着什么？AI那些动辄数千token的“思考”里，至少一半都是没用的冗余——可能是反复验证已经确认的结论，可能是对简单步骤的无意义复盘，甚至可能是为了“显得合理”而凑出来的废话。这些冗余步骤不仅拖慢了响应速度，还让AI的推理成本飙升——有数据显示，推理型AI的token消耗是普通模型的3到5倍。

让AI学会“沉默思考”

既然大半思考都是废话，能不能让AI别再说出来？团队提出的隐式思考模型LRT，就是给AI装了个“内部思考室”。

传统推理模型的流程是：输入问题→逐token生成推理链→生成答案，像个边想边说的演讲者；而LRT把这个流程彻底改了：

输入编码：把问题喂给大模型，提取它的隐藏状态——相当于让AI“听懂”问题；
隐式推理：用一个轻量级的小网络，把这些隐藏状态压缩成一串固定长度的向量——这就是AI的“思考结果”，但它不用转换成文字；
答案生成：把这串向量和问题编码拼在一起，直接让大模型输出答案。

简单说，就是让AI把“自言自语”变成“沉默思考”，不用把每一步都念出来。实验数据显示，在Qwen3系列模型上，LRT不仅比原生的非思考模式准确率更高，推理速度还快了近30%——因为它省掉了逐token生成推理链的时间。

更妙的是它的混合模式：遇到简单题用隐式推理快速作答，遇到复杂题再切换回显式推理写过程。就像人一样，简单问题凭直觉，复杂问题才动笔算。

隐式推理的“黑盒”困境

但LRT不是完美的。它最大的争议在于“可解释性”——当AI不再输出推理链，你怎么知道它是“想对了”还是“蒙对了”？

在医疗诊断、法律判决这些高风险领域，推理链是AI的“证据链”，医生和法官需要看到AI是怎么得出结论的。但隐式推理把这部分藏了起来，变成了一个黑盒。虽然团队尝试用强化学习让AI在隐式空间里探索更优路径，但没人能保证它不会在某个时刻“走捷径”——比如记住了答案而不是真的学会了推理。

还有一个现实问题：隐式推理的效果和基础模型的能力高度绑定。团队在Qwen3-8B模型上测试时发现，给它512个隐式token，性能还能提升；但在小模型上，超过256个token就没效果了。这意味着，隐式推理的“天花板”，其实是基础模型的“智商”。

我们总以为，AI的推理越详细、步骤越多，就越“智能”——就像我们小时候写作文，总觉得写得越长分数越高。但这次的研究像一盆冷水，浇醒了这种执念：智能从来不是“多说废话”，而是“精准思考”。

LRT的意义，不只是让AI更快了，更是让我们重新理解了“推理”的本质：那些写出来的步骤，可能只是AI思考的“副产品”，真正的推理过程，藏在模型的隐藏状态里，藏在那些看不见的向量里。

高效的思考，往往是沉默的。 未来的AI或许不会再像话痨一样碎碎念，但它会更懂怎么把力气花在刀刃上——就像真正聪明的人那样。

被拆穿的“过度思考”

让AI学会“沉默思考”

隐式推理的“黑盒”困境

评论