神经科学家说：聪明的AI不贪婪？

“聪明的不贪婪”，说的是别把智能等同于“奖励最大化”。在主动推断里，合格的智能体不冲着胡萝卜一路狂奔，而是先问：我哪里还不确定？它用期望自由能作指南针，把“达成目标的效用”和“弄清世界的不确定性”绑在同一个目标下最小化。结果是行动既有进攻性（去达成偏好状态），也有求知性（去收集能降低模糊性的证据）——少一点赌徒冲动，多一点有度的好奇。这不是哲学标语，它换来可测的收益：更高的样本效率（在互动数据稀缺时仍能学到稳健策略）、更好的校准与可解释性（明确告诉你它对“看见”的把握有多大）、以及在非平稳环境里的鲁棒性（规则变了也不崩）。仓库机器人第一次遇到陌生器件，会先承认“不确定”，安排探测动作再抓取；自动驾驶在视线被雨雾遮蔽时，先降速增采样，而不是盲目“凿高分”。代价同样真实：先验偏好设错会让系统过度谨慎，算力预算不足则难以在线维护不确定性与对象级世界状态。真正的突破，可能是把“世界模型”与“主动推断”合体：用显式三维与长期记忆去“懂结构”，再用期望自由能去“会自控”。那样的AI不贪婪，但更有效率；不莽撞，却更能抵达远方。

机器人管家：要“学霸”还是“建筑师”？

要把机器人管家尽快送进家庭，先选“建筑师”。显式3D重建与对象级场景图能提供可验证的几何约束与对象持久性，保障导航、抓取和避障的可预测性；单靠“学霸”式抽象预测，在家庭这种拥挤、遮挡、频繁改动的环境里，常出现“逻辑对了、手伸偏了”的物理失误。但想从“能干活”进化到“会打理”，离不开“学霸”。基于视频的世界模型用极少交互数据就能学到物理直觉与多步因果，遇到新物体会预见后果并自我重规划；类似V‑JEPA路线用约62小时机器人数据在陌生场景仍有65%‑80%成功率，而仅靠显式3D在长时任务上容易被不可预见事件打断。最稳妥的答案是混合：用“建筑师”打底，维护可编辑场景图与硬几何约束；其上叠“学霸”做长时预测与动作评估，再由VLA承接人类意图。安全由“建筑师”兜底，效率靠“学霸”提速——既不撞杯子，也懂“先收台面，再开洗碗机”。

AI在“盗梦空间”里训练，我们能进去吗？

能进，但要分清你想进的是哪种“梦”。显式的3D世界已经向人类敞门：像 Marble 这类模型生成的是可导航、可编辑、可导出的场景，你可以把它直接丢进 Unreal/Unity，甚至上头显设备里沉浸式漫游、改灯光、挪道具、拼接更大的空间——它更像一座“可居住的片场”。而AI真正练功的“深梦”多在看不见的潜变量里（如 V‑JEPA、DreamerV4）。那里没有可供人类观看的连续画面，只有高维表征与预测器的内在推演；你没法“走进去”，最多通过机器人或智能体的行为侧面感受它学到了什么。介于两者之间的研究型生成环境（如能实时交互的 Genie 3）理论上可“同场共梦”，但尚未对公众开放，且连贯性目前通常只能维持数分钟、物理一致性不及硬编码引擎，算力与安全约束也让人机共处的训练场暂时稀缺。更现实的节奏是：未来1–2年会出现面向玩家与开发者的“世界编辑器+任务沙盒”，让人类参与数据采集与评测；至于直接进入智能体用于规划决策的同一世界模型，本质上仍隔着一层“翻译器”，短期内难以无缝共享。

新知 - 大圆镜｜AI不再死记硬背，开始学懂物理世界

对抗知识焦虑，从看懂这条开始

App 下载

五大流派，各自破解一个难题

你可以把世界模型理解成AI脑子里的“现实模拟器”——它能像人一样，不用亲身经历，就能想象出“推一下杯子会倒”“球滚下桌子会落地”这些物理规律。但到底怎么建这个模拟器，全球的科学家们分成了五派，各自盯着一个核心难题死磕。杨立昆的JEPA派，要解决的是“AI别再死记像素”的问题。他们让AI把视频转换成抽象的数学符号，不用去预测每一片叶子的飘落轨迹，只需要在这个抽象空间里判断“风会把树叶吹下来”。他们的V-JEPA 2模型，用100万小时无标签视频预训练后，只需要62小时机器人数据，就能在陌生环境里把陌生物体拿起来，成功率能到65%-80%——而传统方法要练几千小时。李飞飞的空间智能派，盯着的是“AI看不懂三维空间”的问题。他们的Marble工具，能把一段文字、一张照片甚至随手画的草图，变成一个可以旋转、编辑的3D场景，而且从任何角度看都不会“穿模”。不过目前它还只是个“3D画家”，能画出房间的样子，却还搞不清在房间里走路会碰到什么。

还有DeepMind的“造梦师”派，干脆直接给AI造一个虚拟世界练手。他们的Genie 3能生成一个暴风雨里的威尼斯运河，你可以划船、打碎花瓶，碎片会一直留在原地。但这个“梦境”只能维持几分钟，之后就会开始变形——毕竟它没有硬编码物理规则，所有规律都是从视频里学来的。

从实验室到产业，还有三道坎

当科学家们在实验室里各显神通时，产业界已经开始为世界模型铺路——英伟达的Cosmos平台，就是专门给造世界模型的人“卖水卖铲子”的。它能在14天内处理2000万小时视频，比传统CPU方案快60多倍，还提供了现成的预训练模型，小鹏的自动驾驶、硅谷的机器人公司都在用它练AI。但从实验室的demo到真正能用的产品，还有三道绕不开的坎。第一道是“数据坎”：世界模型需要的不是互联网上的文字，是真实世界的视频、传感器数据、触觉反馈，这些数据不仅难收集，还涉及隐私，没法像文本那样随便爬。第二道是“算力坎”：训练一个像V-JEPA 2这样的模型，要用到上万块GPU，成本是以千万美元计的，不是谁都烧得起。第三道也是最核心的坎，是“因果坎”。现在的AI能从视频里学到“球被推了就会滚”，但它不一定真的理解“推力是球滚动的原因”。就像一个小孩看了一万次苹果落地，也不一定懂重力——要真正理解因果，还需要AI能像人一样，在脑子里做“思想实验”：如果没有重力，苹果会怎么样？如果桌子再高一点，球会滚得更远吗？就连最接近生物智能的主动推断派，也只是刚摸到门槛。他们的AXIOM框架，能让机器人在仓库里遇到陌生物体时，先判断“我不确定这是什么”，而不是瞎猜瞎动，但要让它像人一样灵活应对复杂环境，还早得很。

不是取代大模型，而是补上短板

很多人把世界模型当成大语言模型的“对手”，其实更准确的说法是“搭档”。大语言模型擅长处理符号、知识和逻辑，世界模型擅长理解物理、空间和因果，两者结合，才能让AI既会写代码，又会修水管。比如一个能帮你装修的AI，大语言模型能听懂你“想要北欧风”的需求，世界模型能在脑子里模拟“把沙发挪到窗边会不会挡光”“吊灯的高度会不会撞头”；一个工业机器人，大语言模型能看懂维修手册，世界模型能判断“拧这个螺丝用多大劲才不会断”。当然，现在的世界模型还都有各自的缺陷：JEPA太抽象，缺具体细节；Marble能画场景，却不懂物理；Genie的梦境不够持久；主动推断派的样本效率高，但处理复杂场景还不够。未来的方向，大概率不是某一派赢到最后，而是把这些技术融合起来——就像人的大脑，既有负责抽象思考的前额叶，也有负责空间感知的顶叶。

从AlphaGo下赢李世石，到ChatGPT写代码，AI一直在挑战人类的“智力边界”，但直到世界模型出现，它才开始真正“理解”我们生活的这个世界。这不再是靠统计概率猜答案的游戏，而是让机器像人一样，通过观察、模拟、推理，一点点建立起对现实的认知。 懂物理，才是AI落地的开始。 未来的AI不会只是屏幕里的聊天框，它会是能帮你搬家具的机器人，能提前预判故障的工业设备，能在虚拟世界里帮你试装修的设计师——它会真正走进我们的物理世界，而不仅仅是存在于数字空间里。

五大流派，各自破解一个难题

从实验室到产业，还有三道坎

不是取代大模型，而是补上短板

评论