AI能“专攻”推理，我们的大脑呢？

能。大脑也有“推理专家组”。影像学一再显示：一道需要抽象推理的题会点亮额顶叶的“多需求网络”（MD network），而数学推理还会调动双侧顶叶的数感网络（如顶内沟），与语言区基本分离。损伤研究进一步坐实这种专攻：顶叶受损常见“失算症”，而失语者却能保留代数推理。更妙的是，这套“专家组”可被训练重塑——长期数理训练能增强前额-顶叶通路的功能连接与白质完整性，像把常驻专家从“兼职”磨到“全职”。但大脑的“路由器”是生物的，既灵活也会走神。基底节-丘脑-前额叶回路像门禁，决定哪路信息被更新进工作记忆；注意网络再分配算力。压力、情绪与强烈的视觉显著性会劫持这套门禁，把资源从目标导向转去习惯系统，形成“人类版路由分心”：Stroop干扰、花哨图示拖累解题、双任务让推理崩盘，这些都不是看不见，而是想不动。想让大脑更“专攻”，诀窍不是更用力，而是更会分配。先文本后图、避免视觉杂讯，让注意力优先投给MD/数感网络；把思路外化（列式、画中间态）相当于给大脑加“链式思维缓存”；深度睡眠与间隔练习稳住权重更新；高负荷推理时拒绝多任务与情绪诱发；长期则用系统化题型迁移训练，像给“领域专家”持续供稿。脑刺激等手段或有小幅增益，但稳定可靠的“人工路由引导”，仍是良好任务设计与自我调度。

AI的“分心”，是机器的认知偏见吗？

更像“结构性先验”而非人类意义上的认知偏见。MoE 的门控在训练中学到的是一种节能且稳态的调度策略：优先依据模态身份、频次与负载均衡信号来分配专家。图像一来，这些强信号盖过了任务语义，导致中层的推理专家未被充分激活。它不是“价值判断”的偏见，而是目标函数与数据分布共同塑形的选择偏差。证据也指向“调度失配”而非“能力缺陷”：中层路由分歧与精度负相关，轻度提升领域专家权重即可回收性能；专家本身具因果作用，说明能力在，却被错误路由屏蔽。这更接近“控制策略偏差”（control bias），与社会偏见不同，具可干预性和可迁移性。因此答案是：它是机器的路由与训练诱导的系统性偏差。通过对齐跨模态路由分布、在训练中加入模态不变路由正则、引入任务条件门控与共享专家、调校温度与容量，或在推理时执行软引导与证据高亮，便能把“分心”从认知难题变成可校准的工程问题。

AI看图会分心，无人车还可靠吗？

可靠与否不取决于“AI会不会看图分心”，而取决于它是否被允许单独做决定。量产无人车的安全闭环通常不把多模态大模型当“唯一大脑”：多传感器冗余+独立感知与规则化规划+功能安全/SOTIF标准+受限运营域，共同把可能“走神”的模型关在安全壳外，或只让它当辅助手。即便用了大模型，也多以监护模式运行，置信度低就触发保守策略或交由经典模块裁决。真正该担心的，是走纯视觉、端到端甚至MoE决策而又缺少硬件冗余与运行时监控的路线——路由偏差这类机制性问题可能迁移到驾驶决策，夜雨逆光、复杂交互尤甚。行业应对正在收紧：传感器与算法双冗余、对大模型做路由正则与对齐训练并上线失配监测、把运营范围收敛到可验证的数据分布内。结论很直接：在受控场景与合规工程下，无人车是可靠的；脱离冗余与监管的“纯大模型驾驶”，才不可靠。

新知 - 大圆镜｜AI能看懂数学题图片，却算不出正确答案

对抗知识焦虑，从看懂这条开始

App 下载

不是看不懂，是找错了“解题专家”

要搞懂这个问题，得先拆解AI的“大脑结构”——这次出问题的是多模态MoE模型，简单说就是把AI拆成了好多个“专业专家”，比如专门处理视觉的“图像专家”、专门算数学的“推理专家”，还有一个“路由器”负责给不同的输入分配对应的专家。这种设计本来是为了高效分工：看图片找图像专家，做推理找数学专家。

研究团队先排除了最直观的猜想：是不是图片和文字的语义没对齐？他们做了个跨模态干预实验，把纯文字里的数字“灵魂”注入图片的数字“外壳”，结果发现模型中间层的语义共享成功率超过90%——也就是说，AI完全知道图片里的数字和文字里的是一回事。

真正的问题出在“路由器”上。他们用基尼系数分析专家的特化程度，发现了一个清晰的层级分工：图像专家集中在模型的早期和末尾层，负责处理视觉编码和输出准备；而数学推理专家全挤在中间层，正好是跨模态语义共享的核心区域。更要命的是，这两类专家在中间层几乎没有重叠。

视觉输入干扰了“路由器”的判断

当AI处理图片版的数学题时，“路由器”会先把信号分给早期的图像专家——这本来没问题，但视觉信息带来的干扰，会让路由器在中间层“分心”：本该分配给推理专家的计算资源，被错误地分给了和推理无关的专家。

研究团队用Jensen-Shannon散度量化了同一道题的文字版和图片版在专家激活上的差异，结果呈现出一个明显的U型曲线：早期和末尾层的分歧本来就大，但中间层的分歧和视觉输入的复杂度直接挂钩——图片越复杂，中间层的路由分歧就越大，对应的推理准确率就越低。比如三个视觉复杂度递增的版本，推理准确率分别是89.0%、88.2%、87.4%，而纯文字版本的准确率是92.8%。

这就是他们提出的“路由分心假说”：视觉模态本身不会损害AI的推理能力，但会干扰路由器的分配决策，让AI找不到真正能解题的那个“专家”。说直白点，就是考试时找错了同桌抄答案。

给路由器“指路”，就能让AI重新思考

找到了问题根源，解决方法就很直接：给路由器“提个醒”，让它别忘了激活推理专家。研究团队设计了两种干预方式：软干预是给推理专家的激活权重加个“buff”，硬干预是直接强制路由器选择推理专家。

实验结果很明确：软干预在所有模型和任务里都实现了稳定提升，平均准确率提高1.5%，在复杂的MathVerse任务上最高提升了3.17%；而硬干预的效果不稳定，甚至在有些模型上起了反作用。更关键的是，随机给无关专家加buff的对照组几乎没有提升，这说明性能提升确实来自于激活了正确的专家，而不是简单的扰动。

当然，这种方法也有局限：它只对“看得懂但不会算”的场景有效，如果任务本身需要先从复杂图片里提取信息，比如从一堆场景图里找数字，那路由引导的作用就很有限。而且专家识别对任务类型很敏感，用基础算术的专家去解决几何题，不仅没用还可能拖后腿。

这次研究最有意思的地方，是它戳破了一个关于AI的错觉：我们总觉得多模态模型能“像人一样”同时处理视觉和语言信息，但实际上，AI的“看”和“想”可能是两条完全独立的流水线，稍微有点干扰就会脱节。

“路由分心”只是AI推理失败的一个切面，未来我们还得搞清楚，空间关系、几何图形这些复杂视觉概念的语义对齐到底有多难，路由分歧和推理性能之间的精确因果链到底是什么。但至少现在，我们找到了一个能让AI“集中注意力”的小技巧——有时候，让AI好好思考的关键，只是帮它找对那个会解题的“专家”。

看得清，更要找对路。

不是看不懂，是找错了“解题专家”

视觉输入干扰了“路由器”的判断

给路由器“指路”，就能让AI重新思考

评论