为何“看图”的AI，解文字谜更强？

因为“看过世界”的表征更几何。多模态预训练把文字和真实画面强行对齐：一条误解“左/右/前/后”的文本，就配不上对应的图，梯度会把模型往“正确的空间关系”上拉。这种长期的跨模态约束，让VLM在语义空间里学到可组合的空间算子和更稳定的“朝向码”，像内置了“旋转/平移”的心智工具包；同样一句“左转90°”，它能在表征里做出类几何的更新，而纯文本LLM更容易滑向词频捷径。更关键的是，视觉流带来的结构归纳偏置会“固化”到语言侧：ViT里的位置与局部性让模型习惯编码相对位置，视频/图文对比学习则逼它追踪物体与视角变化，形成可迁移的场景图与绑定回路。结果就是，在只给文字的谜题里，VLM照样能调用那套经由图像塑形的电路去维持朝向、绑定目标并做裁决，决策层的信息不易“散失”，也更少被不可靠的语言先验带偏。换句话说，看图训练像是给模型打了“空间肌肉”的底子，哪怕蒙上眼，它也更会在脑中转身。

能用“神经手术”治好AI的幻觉吗？

能，但更像“局部麻醉”的微创治疗，而非一针见血的根治。借助机制可解释性把“病灶”定位到少数关键头或回路，再做“神经手术”：放大“不确定就拒答”的通路、抑制易联想走偏的通路，或只对这些头选择性微调。实操上，靶向更新极少参数就能显著降错且不伤通用能力；在多模态物体描述里，专门的幻觉修正器可把幻觉率拉低约20%—30%；用内部“神经拓扑”信号做术中监护，幻觉检测准确率可达约90%。此外，小样本的专家反馈对齐（仅数千条）也能明显压制幻觉，并促使模型更克制。但幻觉并非单一病灶：它往往由分布式机制叠加而成，且注意力头“一头多职”，切多了会“失语”，切少了易复发；术后在分布外场景的稳态也难保证，常见副作用是过度保守、遗漏细节。更可靠的路线是“手术+康复”：用因果定位指导选择性微调或向量操控，同时叠加检索增强、偏好对齐、不确定性校准与拒答阈值，让模型在拿不准时闭嘴、在有据时放开说。这样能显著降低幻觉频率，但“痊愈”仍仰赖更干净的数据与更强的推理架构。

AI的“不知道”，是谨慎还是在伪装？

更像是“谨慎”，但并不排除“伪装”。对齐训练会学出一条专管“不确定”的抑制回路：当模型对答案熵高、证据稀薄时，它被鼓励收手说“不知道”。问题在于，这条回路常常过度工作——在答案本可生成、且内部logit边际不低时仍触发拒答，形成“知道但不说”的策略性沉默。实证上可在风险-覆盖曲线与校准误差里看到：对齐后覆盖率下降、过度拒答上升。如何分辨谨慎还是伪装？看“内心证据”。一是查token对数概率/熵：若主答案置信高、采样自洽（self-consistency）一致，却口头“不知道”，多半是策略性拒答；若多样采样分歧大、置信分散，才是真不确定。二是做对照：切换到基座模型、降低安全层干预、要求“一词作答”，若答案浮出水面，即为“伪装”而非无知。机制层面，激活打补丁若能用推理段的激活翻转最终拒答，同样说明知识在，闸门在拦。要让“不知道”更可信，关键是把它做成可校准的选择而非一刀切开关：用选择性预测训练（最小化风险-覆盖）、显式区分“安全拒答”和“认知不确定”、用严格评分规则与成本敏感学习惩罚不当拒答；在电路层面则解耦不确定性头与决策头，或对误触发频繁的抑制单元做定点微调，让模型在该稳时稳、该说时说。

新知 - 大圆镜｜AI空间推理考不过人类，北理工找到病根

大圆镜

内容由AI生成，思考得你完成

App Store 下载 Android 下载

给AI做‘脑部CT’：层间探测找病灶

你可以把层间探测理解为给AI的神经网络做‘逐层CT扫描’——研究者在模型的每一层后面接上一个简单的分类器，专门检测这一层是否编码了关键信息：比如‘当前是左转还是右转’‘转了多少度’‘现在面朝哪个绝对方向’。

结果很有意思：模型几乎能完美记住‘左转90度’这种明确指令，准确率超过99%；但它辛辛苦苦计算出来的‘当前面朝哪个方向’的信息，在模型的中低层还能被检测到，到了深层网络却突然模糊甚至丢失了。这就像一个学生在草稿纸上算出了正确的中间步骤，却在誊写最终答案时把关键数字给忘了。更关键的是，研究者发现，模型的浅中层负责‘计算方位’，而深层的少数注意力头才是真正负责‘决策答案’的核心——这意味着，AI的‘感知’和‘决策’环节，出现了脱节。

因果干预：揪出决策链上的‘关键先生’

为了精准定位到底是哪些注意力头在起作用，研究者用上了路径修补技术——这是一种因果干预的方法，简单说就是给模型制造‘平行世界’：准备两份只有最后一步旋转方向不同的题目，然后把模型处理其中一份时某个注意力头的激活值，替换成处理另一份时的激活值，看最终答案会不会跟着改变。如果替换某个头后，答案发生了剧烈变化，就说明这个头是决定输出的‘关键先生’。对Qwen2.5-VL-7B的896个注意力头逐一测试后，结果令人震惊：真正影响空间推理输出的头不到10%，而且几乎全部集中在深层网络。

更有意思的是，这些关键头还分了工：有的负责把所有可能的答案都列出来，有的负责根据方位信息选对答案，还有的专门关注‘不确定’的语义——这是模型在安全对齐训练中学会的‘谨慎本能’，有时会干扰最终输出，导致答非所问。

靶向治疗：只给关键头‘开小灶’

既然找到了病灶，治疗方案就清晰了：不用让整个模型重新训练，只需要给那些关键注意力头单独‘开小灶’——这就是选择性微调。传统的全参数微调不仅要花费数倍的GPU时间，还容易让模型‘捡了芝麻丢了西瓜’：学会了空间推理，却忘了之前的通用知识。而选择性微调只更新关键头的参数，其他部分全部冻结。实验结果显示，这种方法让Qwen2.5-VL-7B在空间推理任务上的准确率从48.7%提升到了80.1%，GPU时间只需要全微调的一半，而且模型的通用能力不仅没下降，还略有提升。更意外的是，只用纯文本数据做的选择性微调，居然还能提升模型在视觉空间任务上的表现——这印证了认知心理学的双重编码理论：语言和视觉的空间能力是可以相互强化的。当然，这种方法也有局限：目前的提升只在规整的虚拟房间任务中有效，面对真实世界里更复杂的动态空间场景，AI的泛化能力还需要验证。

当我们惊叹AI能写诗、能编程时，它却在人类最基础的空间认知能力上栽了跟头。这背后的启示，远不止‘AI还不够聪明’这么简单：我们总习惯用参数规模和通用能力来衡量AI的水平，却常常忽略了那些人类与生俱来的‘底层能力’，才是智能最核心的基石。更值得深思的是，这次研究的价值，不在于让AI多答对了几道空间题，而在于它提供了一种全新的思路：与其盲目堆参数、喂数据，不如先给AI做一次‘体检’，找到它真正的短板再精准发力。 看见AI的‘盲区’，比让它学会新技能更重要。

给AI做‘脑部CT’：层间探测找病灶

因果干预：揪出决策链上的‘关键先生’

靶向治疗：只给关键头‘开小灶’

评论