如何教AI学会“三思而后行”？

要教AI“三思而后行”，先给它一套“怀疑机制+取证规划”。在感知-行动闭环里显式维护信念分布与不确定度（如深度集成、MC Dropout、温度校准、选择性预测/可拒答），把“何时停”与“往哪看/怎么摸”统一成信息增益最大化的主动感知规划（POMDP/VOI）：优先寻找能推翻当前假设的视角与接触，而不是盲目堆多视角；把“绕到背后、俯视、开盖、倒水”等取证技能做成可复用的技能先验。训练上，把“证据”写进目标函数：对信息增益与置信度校准给奖励，对过早定论与高置信错误给惩罚；用人类探索轨迹和“误导/遮挡”反例做模仿+强化联训；强制行动-理由联学——先提出可证伪假设→规划→执行→自检，用自一致与反事实验证驱动反思，学会在矛盾证据前降置信并继续取证。工程落地要克制“不完美3D即真相”：若做重建，必须携带不确定度掩码与多视角一致性校验，否则宁取高质2D+主动视角规划。配套世界模型做前瞻模拟与风险评估，置信不足时自动降速、求助或切安全策略。评测也要同步升级：不仅看答对率，还看取证步数、校准曲线与“被证伪后改判”的比例。

“迷之自信”的机器人，你敢用吗？

不敢盲用。有“迷之自信”的机器人，最大问题不是“看不清”，而是“不确定也不求证”。这类系统会在证据不足时提前下结论，现实风险并非假设：2018年Uber无人车在目标识别反复变更下仍未触发及时制动，酿成致命事故；最新研究也证实，环境里的恶意文本可劫持具身AI决策。把它直接丢进开放世界，本质是把风险外包给路人。要用，只能在“未证据—慢/停/问”的机制到位后：做置信度校准与集成评估，强制主动去找高信息视角，部署OOD与异常检测，外加策略护栏与运行时监控（如控制屏障函数、冗余感知与安全停机），并实行低速限距与人工随时接管。落地前通过UL 4600、ISO 21448/10218/TS 15066等认证，设定清晰的风险预算和接管率红线；高风险场景，宁缺毋滥。

AI看图越多，为何反而更“糊涂”？

因为“多看”并不等于“看对”。当前多模态大模型对多视角几乎不做几何一致性约束：没有等变性、极线约束与跨视角实体绑定，常把每张图当独立样本，再用注意力去“凑”。随机加图带来的是冗余与矛盾线索，注意力被冲淡，关键信息被噪声淹没，信号噪声比下降，决策边界变模糊，于是答得更糊。更糟的是，粗糙的3D重建把系统性误差固化为“确定几何”，错误一旦写进场景图，比2D噪声更具欺骗性，视角越多，误差扩散越广。更深层的症结在于“不会停、不会疑”。这些模型缺少不确定性估计与信息增益驱动的选视策略，面对冲突证据不懂反证搜索（如去正交角度验证），而倾向于沿同一方向反复取冗余视图；RLHF与指令微调还奖励“迅速且肯定”的输出，放大了过度自信与早停。于是形成“动作盲视”：差动作→差视角→更差动作的级联失败，越看越偏。要让“多看”变“看懂”，需要把“看什么、何时停、如何证伪”接入闭环：用贝叶斯/能量式不确定性来驱动主动取景；在表征里注入SfM/MVS级的几何一致性与实体跟踪；在记忆中维护可检验假设与反事实探测；训练时引入校准损失与停机规则学习。否则，再多的图，只会是更响的噪声。

新知 - 大圆镜｜AI看图能拿满分，动起来却连入门都难

对抗知识焦虑，从看懂这条开始

App 下载

从“被动看”到“主动做”的范式翻转

传统的空间智能评测，本质是考“视力”：给AI一张或几张图片，问“A在B左边还是右边”“抽屉里有东西吗”——这些题不需要推理，只要能“看”清画面就行。但人类的空间智能从来不是这样：我们会绕到物体背后、拉开抽屉、翻转容器，通过行动把模糊的信息变清晰。

这就是ESI-Bench的核心突破：它第一次闭合了**感知-行动回路**——一个让智能体通过“观察→行动→新观察→新行动”循环获取信息的机制。你可以把它理解成：以前考试是老师把所有答案线索都印在试卷上，现在是给你一把实验室钥匙，要你自己进去找证据。

ESI-Bench在OmniGibson仿真平台上搭建了3081个任务，覆盖人类空间认知的四大核心维度：物体识别、空间布局、数量判断和目标导向行动。每个任务都设置了“行动强制”：比如要判断容器能不能装下物体，AI必须主动走近、掀开盖子甚至翻转容器；要比较两个杯子的容量，得把水倒出来试。没有任何捷径，必须“动”才能拿到答案。

动作盲视：AI空间智能的致命瓶颈

测试结果暴露了当前AI的核心缺陷：感知不是瓶颈，行动才是。

团队用GPT-5、Gemini 3.1等顶尖模型做了对比：如果给模型“上帝视角”的最优观测，Gemini 3.1在“部分遮挡”任务上的准确率能从14.6%暴涨到95.1%——这说明AI的“视力”其实没问题，只要给对视角就能看懂。但问题是，AI根本找不到那个“对的视角”。

团队把这种现象命名为动作盲视：AI做出一个错误动作，得到一个无效视角，错误的视角又会引导它做出更错的动作，形成不可逆的级联失败。比如在“结构围合”任务中，AI和“上帝视角”的准确率差距高达49.7%；更讽刺的是，给GPT-5多看几张随机角度的图片，它的准确率反而会从53.9%降到49.1%——信息变多了，判断却更差了。

更关键的是，AI还存在“元认知缺陷”：它不知道自己“不知道”。人类在判断前会主动找能证伪自己假设的视角，比如绕到柜子背面确认，而AI往往看了一两步就自信下结论，哪怕证据还模糊不清。在“材质透明度”任务中，人类主动探索的准确率是93.6%，而Gemini 3.1只有52.3%——差距的核心，是AI没有“怀疑自己”的能力。

3D重建不是万能解药

有人可能会想：既然2D看图有局限，那用3D重建场景不就行了？但ESI-Bench的测试打破了这个幻想。

如果给AI完美的3D真值场景，确实能提升部分任务的表现——比如Gemini在“材质透明”任务上，2D版本得分44.0%，3D版本能涨到60.4%。但如果是真实世界中不完美的3D重建，结果会更糟：用当前最先进的VGGT模型重建场景后，AI在“几何配置”任务上的得分从2D基线的27.5%暴跌到9.9%。

这是因为不完美的3D重建会引入“有毒信息”：几何伪影、遮挡补全错误、深度偏差……这些失真的信息会误导AI的推理，反而不如2D图片“虽然信息少，但至少不失真”。这也给当前的具身智能研究提了个醒：盲目追求3D化没用，先把“怎么找对视角”的问题解决，比什么都重要。

ESI-BENCH的出现，就像给AI出了一份“实景操作题”，而不是“选择题”。它让我们看清：当前AI的“聪明”，大多是在静态数据里训练出来的“纸上谈兵”，而真正的智能，是能在复杂的真实世界里，主动找答案的能力。

智能的本质，从来不是“看得懂”，而是“会行动”。从被动感知到主动探索，这不仅是评测范式的转变，更是AI从“工具”向“智能体”进化的必经之路。或许未来的某一天，AI会像人类一样，在遇到问题时先停下来想一想：“我该做点什么，才能找到答案？”

从“被动看”到“主动做”的范式翻转

动作盲视：AI空间智能的致命瓶颈

3D重建不是万能解药

评论