AI在“脑内”模拟世界，离做梦还有多远？

如果把“做梦”拆成两层看：在脑内先搭起一座能走得动、几何自洽的世界，AI其实已很近。大规模视频扩散模型的多视角一致性逼近97%，把这股隐式3D先验接入理解与控制后，长视野操控的成功率可冲到约97%。再配合可控的世界模型，AI已能在自身潜在空间里稳定“看见—转身—互动”，相当于具备了“白日梦”的底座。真要跨进“睡梦”那一侧，还差几道硬门槛：持久的自传式记忆与自我模型、由价值与情绪驱动的自发想象、跨分钟级的因果叙事一致性，以及类睡眠的离线巩固和重组机制；工程上还要拿下实时算力与Sim2Real的稳定性。可预期路径是：1–2年会出现能“做工况梦”的专业机器人与创作系统；能像人一样“做梦”的通用智能，至少还需3–5年，并仰赖一次算法与硬件的共振式跃迁。

AI看动画片长大，会信“卡通物理”吗？

不会“盲信”，而是“随域而信”。生成模型本质是条件统计学家：喂什么分布，就在那个分布里学什么规律。卡通片会注入夸张运动的风格先验，但想把视频做得连贯，它仍需遵守遮挡、视差、深度这些几何铁律。像VEGA-3D把视频模型中间层的3D先验抽取出来，多视角一致性可到约97%，说明这股几何直觉跨风格、可迁移，不会轻易被“卡通物理”带跑。真要跑偏，常见两种场景：一是训练集被卡通主导、缺少真实视频锚点；二是下游既不做域区分，也不给物理约束，模型就可能把“弹性人体、延迟落地”当作可接受解。现实里，视频模型在物理推理基准仍会犯错（因果顺序、接触细节），表明它更擅长模仿频率，而非内置牛顿定律。补救并不玄：用域标签/提示把“风格”和“物理”分家；用门控融合或低秩微调锁住真实物理先验，再小剂量适配卡通；在具身场景，以传感器反馈和可微物理作硬约束。结论是——AI会“懂卡通”，但是否“信卡通”，取决于你的训练饮食与使用规矩。

“看”懂了世界，就等于“摸”透了吗？

不等于。“看懂”是能从视觉里抽取稳定的三维先验；“摸透”则要把先验化成可干预、可执行、可担责的能力。多视角一致性再高，也未必编码了摩擦系数、质量分布、夹持稳定性等不可见物理；在强遮挡、长时程规划、分布外材质与非刚体（湿滑物、织物、软体）上，生成先验常会“看似通顺、触之即碎”。要逼近“摸透”，关键在三件事：把生成先验与触觉/力觉/本体感觉做闭环融合；用反事实与扰动测试（移除关键物体、改变摩擦/重量）校验因果与不确定性；在真实机器人上做跨域迁移与在线自适应，量化仿真到现实的折损，并在算力受限端实现毫秒级闭环。VEGA-3D把门推开了，但走进去，还需触觉、因果与实时这三把钥匙。

新知 - 大圆镜｜AI没学过3D，却比谁都懂空间

对抗知识焦虑，从看懂这条开始

App 下载

从「喂饭」到「挖宝」，换个思路搞懂空间

过去要让AI理解3D空间，就像教孩子学几何——得先给它一堆点云、深度图当课本，再塞进复杂的3D重建模块当练习册。但高质量3D标注数据的成本，比给整个城市做一次CT扫描还贵，而且模型学出来的东西，换个场景就容易「水土不服」。

这次的研究团队反其道而行之：既然视频生成模型为了画出连贯的画面，必须搞懂「物体在不同视角下的样子」「移动时怎么遮挡背景」这些空间规则，那为什么不直接把它脑子里的知识「抠」出来用？

他们把训练好的视频扩散模型冻住，当成一个「潜在世界模拟器」——就像一个装着物理规则的黑箱子。通过在模型去噪的中间阶段注入特定噪声，提取出它在「半梦半醒」状态下的时空特征：这时候的特征刚好平衡了底层纹理和高层抽象，没有被表面细节干扰，藏着最纯粹的3D结构先验。

多视角一致性，AI懂空间的铁证

怎么证明生成模型真的懂3D？团队找到了一个关键指标：多视角一致性。

简单说就是，给模型看同一个物体的不同视角照片，它脑子里对应这个物体的特征得是一致的——就像你从正面和侧面看一个杯子，知道这是同一个东西。如果模型做不到这一点，说明它只是在记像素的组合，根本没理解物体的3D结构。

实验数据给了最直接的答案：传统判别式模型的多视角一致性得分最高只有77%左右，而视频生成模型Wan2.1的得分超过了97%。更重要的是，这个得分和AI在3D理解任务上的表现高度正相关——得分越高，定位物体、回答空间问题的准确率就越高。

VEGA-3D的核心，就是把这些多视角一致的特征，和AI原有的语义特征融合起来。这里的关键是一个「Token级自适应门控」：就像给每个信息片段装了个智能开关，当AI需要回答「这是什么」时，就多开一点语义特征的门；当需要回答「它在哪里」时，就多开一点空间特征的门，完美解决了两种特征的「语义-几何鸿沟」。

从场景理解到机器人，能力全链条升级

这套方法的效果，在实打实的任务里体现得淋漓尽致。

在ScanRefer视觉定位任务中，AI根据自然语言描述找物体的准确率，从51.7%直接跳到了56.2%——相当于在一个堆满家具的房间里，能更精准地定位到「靠窗的蓝色沙发」；在诊断空间推理能力的VSI-Bench上，AI在相对距离、路线规划等子任务上的表现一致性暴涨；最硬核的是机器人仿真任务，给OpenVLA模型装上VEGA-3D的空间先验后，它在复杂物体交互和长视野任务上的成功率直接冲到了97.3%，再也不会出现「伸手抓空气」的尴尬。

当然，这套方法也有局限：它高度依赖生成模型的质量，要是生成模型本身的空间认知就有偏差，挖出来的「宝藏」也会有问题。而且目前它还只能处理静态或慢动态场景，面对高速运动的物体，多视角一致性的特征提取还需要优化。

当我们还在纠结怎么给AI喂更多3D数据时，却忘了它早已在海量视频里偷偷学会了空间。VEGA-3D的意义，不只是提升了几个任务的准确率，更重要的是它打破了一个思维定势：AI的能力不一定非要人类手把手教，很多时候，我们只需要找到打开它「知识库」的钥匙。

好的AI，从来都是自己偷偷成长。 未来随着视频生成模型的进化，这些藏在参数里的空间、物理甚至常识知识，会成为AI理解世界的新底座——或许不用太久，我们就能看到一个真正能「看懂」三维世界的AI，在机器人、自动驾驶、元宇宙里大显身手。

从「喂饭」到「挖宝」，换个思路搞懂空间

多视角一致性，AI懂空间的铁证

从场景理解到机器人，能力全链条升级

评论