AI有空间直觉，能让无人车不犯傻吗？

能，但是“少犯傻”，不是“不犯错”。把空间直觉落到车上，行业更有效的是端到端VLA/VLM与传统控制的“双系统”：快通路保底控车，慢通路做语义理解与全局规划。实测上，DriveVLM‑Dual在量产车型上应对夜间、施工等长尾场景更稳；多城Robotaxi也已跑出200万公里以上的安全里程。相比纯规则/MPC，模型能识别非常规目标并输出分层计划，明显减少“莫名其妙”的操作。但要彻底不犯错，还差几步。现有视觉规划在零样本与全局协调上仍薄弱，映射到道路就是临时改道、交警手势这类组合约束容易翻车；VLM/LLM推理延迟约2秒，难以满足亚秒级制动，只能让快通路兜底。要继续进化，必须用大规模多城市多天气数据与强仿真覆盖长尾，引入安全约束的规划‑判别训练、在线监控和可解释回放，并把伦理优先级固化到策略里。目标应是“越跑越聪明、错得可控”。

AI智商像小孩，为何偏科这么严重？

AI像“小孩偏科”，根子在架构与训练目标的错位：自回归模型按token顺序看局部，扩散模型虽更守全局，却没显式“规划器”；主流损失在乎“像不像”和对齐，不在乎“解没解对”。于是模型擅长画纹理、拙于跨区域一致性；在细微空间变化、时间顺序等任务上，顶尖多模态模型常比人类低约30个百分点，暴露系统性盲点。数据与“课程”把偏科放大。训练集几乎都是自然图像，缺“约束满足”的多样样例；动作空间不全会卡住几何迁移（六边形迷宫训练反而泛化更好就是例证）。迷宫可由3×3外推到16×16，但N皇后这类强全局组合任务难迁移。规模效应也不线性：约1600样本后收益趋缓，反而是训练后段的计算步数更关键。要“补课”，得在模型里加老师、立规矩：把约束显式化，用可微约束/判别器或小型搜索规划器与扩散生成协同；换上更有语义与几何感知的视觉Tokenizer，戒掉对局部纹理的迷恋；配多几何、多尺度、难度递增的课程，并把单步编辑变成“自检—修正”的闭环。那时，AI不止会“画”，也更会“解题”。

AI解谜宫，为何从一团乱麻开始？

因为主流的解谜宫模型多基于扩散生成，采样从“纯噪声”起步。早期去噪信号弱，模型只能把大量“可能路径”以低置信度同时铺开——像把所有候选路线都先画一遍，所以一眼就是乱麻。更糟的是，训练多用像素/感知误差，缺少对“穿墙、越界”的硬惩罚，早期笔触被鼓励“软而散”，难以立刻呈现干净的可行解。更深层的症结在于结构与记忆：模型没有内置图搜索或约束求解器，只能凭局部纹理与注意力“边看边画”。在N皇后这类强全局一致性的任务中，大量近似可行布局会长期并存，采样过程在多条假设间摇摆不定，直到后期去噪才逐步排除冲突、收束成一条清晰答案。从中间态可视化看，常见“幽灵路径”先浮现再被删改。要减轻乱麻，可引入约束感知损失、骨架级监督、强化引导采样，或把显式规划器接驳到扩散前端。但在零样本与强约束场景下，这种高熵的“先粗后细”探索几乎是生成机制的必然代价。

新知 - 大圆镜｜AI能画迷宫解皇后，却还不会像人一样规划

对抗知识焦虑，从看懂这条开始

App 下载

从“转文本”到“直接画”：AI视觉规划的新试验

过去，AI解迷宫、摆皇后这类问题，得先把图像转成文本描述，再让大语言模型推理，相当于“用嘴思考”。这次研究团队反其道而行之，提出了“编辑即推理（EAR）”的思路：直接让图像编辑模型把迷宫原图，一步改成走完的路径图；把空棋盘，一步改成符合规则的皇后布局。

为了公平测试，他们搭建了AMAZE基准——2800个不同大小、不同几何形状的迷宫，350个不同规模的皇后问题，用“覆盖度”“违规率”“通过率”等硬指标打分。结果让人大跌眼镜：零样本状态下，哪怕是闭源的顶尖模型，迷宫任务的最高通过率也只有5.4%，皇后任务更是大多接近0。有的模型会直接“穿墙”，把迷宫边界当摆设；有的模型画了半截路径就停手，根本到不了终点。

但当研究人员用最简单的3×3迷宫和4×4棋盘对模型做微调后，变化出现了：以扩散式模型Bagel为例，迷宫任务的通过率从0涨到了11.54%，皇后任务也达到了14.57%，比自回归模型的提升幅度高出一大截。

扩散模型的秘密：先搭骨架，再填细节

为什么扩散式模型比自回归模型更擅长视觉规划？这得从它们的生成逻辑说起。

你可以把扩散模型想象成“从模糊到清晰画画”：它先在满是噪声的图里，慢慢勾勒出全局的大致结构——比如迷宫里一条模糊的路径，棋盘上几个大概的落子点，然后再一步步去掉噪声，把细节补全，同时修正错误的分支。这个“先搭骨架，再填细节”的过程，刚好契合人类视觉规划的思路，天生擅长维护全局的空间一致性。

而自回归模型是“一笔一笔描”，像写字一样从左到右、从上到下生成像素，很容易陷入局部细节，忽略整体布局。比如画迷宫时，它可能画着画着就忘了起点在哪，最后画出的路径根本不连通。

研究人员还可视化了扩散模型的生成过程：在迷宫任务里，正确路径早在去噪的前几步就以模糊形态出现，随着步骤推进逐渐清晰；皇后任务里，模型会先画一个粗糙的全局布局，再逐个调整落子位置。这种差异也对应了任务的本质：迷宫是“走一步看一步”的顺序规划，皇后是“全局统筹”的组合规划，而扩散模型在后者上的表现，明显还不够成熟。

比不过人类的核心：不会“边想边改”

为了看清AI和人类的差距，研究团队让微调后的Bagel和不同年龄段的人类做了对比。规则很公平：人类不能擦改，要像AI一样一次画完答案。

结果很有意思：在迷宫任务上，AI的表现和12岁孩子差不多；但在皇后任务上，它只相当于6岁孩子的水平。更关键的是，人类的成功率会随着思考时间变长显著提升，而AI就算给更多时间，提升也微乎其微——它不会像人类一样“边想边改”，只是在固定的能力边界里重复尝试。

AI的失败案例也很集中：要么是违反规则，比如迷宫穿墙、皇后同列；要么是只完成一半，比如画了半截迷宫路径，或者只放对了几个皇后。这说明AI还没学会“全局协调”，它能处理局部的视觉逻辑，但一旦涉及跨区域的约束，就容易顾此失彼。

这项研究最有价值的地方，不是证明了AI能解迷宫，而是把“视觉规划”从多模态理解里单独拎了出来——原来AI能“看懂”图像，和能“在图像里思考”，完全是两回事。

现在的AI，就像一个只会照着画的学生，能临摹出正确答案，但未必理解答案背后的逻辑。它能学会走见过的迷宫，却未必能应对没见过的新布局；能摆好固定规模的皇后，却未必能理解“全局不冲突”的核心约束。

**视觉规划的本质，是在空间里做决策。**人类靠直觉就能完成的事，AI还要走很长的路——这条路不是靠更大的模型、更多的数据就能走完的，而是要让AI真正学会“用眼睛思考”。

从“转文本”到“直接画”：AI视觉规划的新试验

扩散模型的秘密：先搭骨架，再填细节

比不过人类的核心：不会“边想边改”

评论