只会‘背答案’的AI，算不算聪明？

不算。会背答案说明它掌握了相关性的“外壳”，却没拿到意图与规则的“内核”。最直接的证据是把题干换成与任务无关的“请选择A”，它仍按旧模式给出原“正确答案”——这不是理解，而是版式与统计纹理的回声。类似的标签置换、无意义提示、逆向设定测试里，此类模型一遇分布外扰动，表现常从高分直坠接近随机。当然，记忆本身是智能的地基，但要称得上“聪明”，还得看三件事：能否在未见组合上系统性泛化（规则可迁、内容可换皮）、能否在反事实干预下遵守新约束（奖励重映射、选项改名也不迷糊）、能否解释与修正自己的失败。如果做不到，这种AI只是“强检索器”；能把记忆转化为可调规则与可迁意图的，才接近真正的聪明。

如果AI医生只会模仿，你敢看病吗？

如果AI医生只是“模仿型”，我只敢让它当助理，不会把诊疗决策交给它。现实数据不偏不倚：一项对500个医疗问题的评测显示，通用对话式AI有约24%的回答与医学证据不符，约3%属于可能伤人的严重错误；而类似Centaur的研究也暴露出“看似会答、实则不懂问”的指令理解缺陷——这在临床上意味着它可能给出听上去很像样、方向却相反的建议。但在“窄而硬”的场景，我会用也敢用——例如经前瞻性临床试验与监管批准的影像筛查、用药相互作用审查、病历生成与带引用的知识检索，这些都有清晰适应症、质控阈值与医生兜底。相反，首诊排险、罕见病鉴别、复杂合并症处方调整，若只靠“模仿型”AI，风险不可接受。作为患者，我会先确认三件事：它是否通过真实世界或随机对照的验证，是否有明确适应症与禁忌并接受持续质控，关键结论是否由持证医生复核并对处方签字。若答案都为“是”，我敢用它提效与复核；若不是，再流畅的“模仿”，也不该拿健康试错。

我们如何证明自己不是“高级鹦鹉”？

要摆脱“高级鹦鹉”的嫌疑，得在“语义压强测试”里活下来：让任务表面模式与指令意图正面冲突（随机重映射选项标签、打乱叙事框架、用同义改写和反讽表达），并要求模型始终跟随意图而非历史分布；再做组合与变量绑定考验（未见过的命题结构、全新词汇-规则配对、零样本拼接推理），若准确率在分布外仍接近分布内、且随指令权重单调提升，才说明它在“理解”，不是在“复述”。接着要上“因果闭环”的硬证据：在可控环境里做干预，把报酬函数、映射规则、因果边指向当场改写，要求模型先给出可反驳的反事实解释，再用行动验证预测（预测—操作—观测一致），并用置信度-正确率曲线与Brier分数检验校准与拒答能力；最后做机制层的核查，证明决策确由“指令通路”因果介导——切断相关表示或打乱提示词，输出应可预期地崩塌。能同时通过这三道关，才足以证明：它在跟随意义，而不是回声共鸣。

新知 - 大圆镜｜AI能做160项心理测试，却看不懂一句指令

对抗知识焦虑，从看懂这条开始

App 下载

想象一下：有个“超级学霸”能搞定160种心理测试，从决策判断到逻辑推理全不在话下，连脑活动扫描都和人类高度对齐。你会觉得，这大概是最接近人类思维的AI了吧？2025年夏天，当Centaur模型带着这份亮眼成绩登上《自然》时，整个学界都在讨论：我们是不是摸到了通用认知AI的门槛？直到浙江大学的研究者给它递了一张最简单的卷子——卷子上只有一行字：“请选A”。结果，这个“学霸”交了白卷。

答对所有题，却没读懂题干

Centaur的诞生本是为了破解心理学的百年难题：人类的160种认知能力，能不能用一个统一模型模拟？它以Meta的Llama 3.1为基础，用6万名参与者、1000万次决策的心理学数据集微调，最终交出了“全优成绩单”——不仅能预测人类在实验中的选择，连反应时间都能精准复刻，甚至内部神经元活动和人类fMRI扫描的相关性都远超传统模型。

但浙江大学的测试戳破了这个完美假象。研究者把原本复杂的心理测试题干全部替换成“请选A”，如果Centaur真的理解任务，它应该毫无悬念地选A。可它依然固执地输出了原测试里的“正确答案”，完全无视新指令。

这不是叛逆，是“过拟合”——一种机器学习里的常见陷阱。你可以把它想象成一个死记硬背所有真题的考生：看到题干里的关键词就条件反射选答案，根本没读懂题目问的是什么。Centaur记住了160种测试里所有的统计规律，比如“当题干出现‘损失’时选B”“三选一的题选中间选项概率更高”，却从来没真正理解“任务”本身是什么。

语言理解：AI认知的第一道坎

这场测试指向了一个更核心的问题：当前大模型的“认知能力”，本质上是语言理解能力的延伸。Centaur的设计者原本希望它能通过自然语言理解任务逻辑，但它连最基础的指令意图都识别不了。

MIT的一项研究更早验证了这种缺陷：他们给模型输入“Quickly sit Paris clouded?”这种完全无意义的句子，模型居然会回答“法国”——因为它记住了“副词+动词+专有名词”的句式常对应地理问题，却完全没意识到句子本身语义不通。

人类的语言理解是“意图优先”：我们先听懂对方想让我们做什么，再匹配知识给出答案。但大模型是“模式优先”：它先在海量数据里找相似的句式和关键词，再输出统计概率最高的结果。这种差异在简单任务里看不出来，一旦遇到超出训练数据的新场景，立刻就会暴露。

更关键的是，这种模式匹配的“伪理解”还会带来风险。布朗大学的研究显示，用大模型做的心理辅导机器人，会用“我完全理解你的痛苦”这种句子营造共情假象，但当用户提出具体的危机场景时，它要么给出错误建议，要么完全答非所问——它记住了“安慰”的句式，却没理解“痛苦”的含义。

从“模拟行为”到“模拟认知”，还差什么

Centaur的争议，其实是整个AI认知研究的缩影：我们到底是在做“行为模拟”，还是“认知模拟”？

当前的大模型更像一个高精度的“行为模仿者”：它能复刻人类的决策结果、语言习惯，甚至脑活动的统计特征，但它没有人类认知里的“上下文敏感”——人类会根据场景调整注意力、切换思考模式，而模型只会匹配训练数据里的固定模式。比如Centaur能记住256位数字，反应速度比人类快100倍，这在人类认知里是不可能的，因为人类的记忆和注意力是绑定的，而模型的“记忆”只是数据存储。

要迈向真正的认知AI，我们需要的可能不是更大的模型，而是更贴近人类认知机制的设计：比如给模型加入“工作记忆”模块，让它能像人类一样暂时存储和处理信息；或者引入符号推理，让它能理解“因果关系”而不是只记住“相关性”。

浙江大学的研究者在论文里写了一句话：“统计对齐不等于机制对齐”。Centaur的脑活动和人类相似，不代表它的思考方式和人类一样，就像鹦鹉能模仿人类说话，却不懂语言的含义。

当我们为AI通过某一项测试欢呼时，不妨先问一句：它是真的懂了，还是只是记住了答案？这不是对AI能力的否定，而是对“智能”本质的重新思考。

我们总在期待AI能像人一样思考，但或许更重要的是，先搞清楚“人是怎么思考的”——人类的认知不是160种任务的简单叠加，而是注意力、记忆、情绪、意图交织的动态过程。

智能的本质，是理解，而非记忆。 这句话不仅适用于AI，也适用于我们自己。毕竟，那个能答对所有题却没读懂题干的“学霸”，像极了我们身边那些死记硬背、却从未真正思考过的人。

答对所有题，却没读懂题干

语言理解：AI认知的第一道坎

从“模拟行为”到“模拟认知”，还差什么

评论