机器人做梦，会梦到电子羊吗？

不会像菲利普·迪克笔下那样“做梦见到羊”，至少现在不会。机器人所谓的“做梦”，是把摄像头与关节历史压成潜在向量，在内部滚动未来几百毫秒到几秒的“概率影片”：杯子会不会滑、绳子何时松、末端执行器需要多大力。它梦到的是可供性、接触法向力和轨迹分布，而不是羊与草地的意象。好的世界模型能把这种梦与现实对齐到近乎一一对应，才敢拿来选策略与估风险。这类“梦”之所以重要，是它用虚拟试错换来安全与样本效率；但它也会做噩梦——分布外偏差与像素伪真导致的幻觉，教会策略在纸面上完美、落地就崩。要把梦做准，路在于更强的因果自回归、触觉与力反馈并入、多小时持久一致，以及对齐评测与不确定性标定。哪天机器人真的“梦见电子羊”，大概只因我们的传感器把“羊毛的软与涩”也变成了可预测的物理信号，而训练目标让它必须在乎。

AI学物理，为何不“眼见为实”？

因为对AI来说，“看见”的是像素，不是因果。相同的视频轨迹可以由不同的质量分布、摩擦系数与外力生成，反之亦然——这是典型的不可辨识性。只看视频，模型容易学到“渲染规律”而非动力学，出现看上去逼真却违背守恒或接触约束的错觉；而双向视频生成还会“偷看未来”，根本回答不了“如果我此刻推一下会怎样”的反事实。物理要靠干预与状态。有效路径是把动作、触觉、本体感觉并入因果、单向的世界模型里，学习持久的隐藏状态，用它做预测与规划。像素重建把损失浪费在纹理与光照上；抽象表示、对象中心或3D状态把注意力收敛到约束、接触与守恒，长时序漂移显著更小。这也是为何基于视频的表示学习配合少量交互，能把演示样本量降到实用级。所以行业不再迷信“眼见为实”，而是追求“能做即真”：模型必须在交互中自证物理，能问反事实、跨视角一致、在闭环里稳定。只有当它在真实力学与噪声下依旧做出正确决策，才算真正学会了物理——哪怕它从不生成一帧漂亮的画面。

看遍人类视频，AI能发现新物理吗？

短结论：光把人类视频看遍，AI很难“发现新物理”。被动视频缺干预与标定，接触力/摩擦/质量等关键变量不可见且混杂。现有视频/世界模型更擅长外观一致与短时预测，常学到任务启发式而非可解释定律；多项实验证明，模型能准预测轨迹，却恢复不出牛顿式通用方程。要逼近“物理发现”，得换打法：让AI能做实验（主动交互、多视角、深度与力觉）、加入物理归纳偏置（对象中心、守恒与对称性）、把可微物理与符号回归结合，把像素提炼成方程；并用主动实验设计最大化信息增益。在受控合成数据上，这些已能重建守恒量、近似PDE或湍流闭式。但公共视频多属低能日常，远离新物理诞生的极端尺度与高精度测量。现实作用更可能是：从海量观测中筛异常、提出可检验假说、优化实验；真正的突破仍要靠可控装置与严格统计去证伪。结论：看视频能助“找路”，难以单独产出“新定律”。

新知 - 大圆镜｜机器人学会了“做梦”，但离做家务还远

对抗知识焦虑，从看懂这条开始

App 下载

两条走了三十年的路，终于交汇了

你可以把世界模型的诞生，看成两个科研团队各自憋大招，直到最近才撞出火花。一边是强化学习领域的“做梦派”：从1990年代开始，他们就想让AI在虚拟环境里“预演”动作——就像人类下棋前在脑子里算几步。2018年的World Models架构第一次让AI“梦见”了赛车游戏的赛道，2025年的DreamerV3甚至能在《我的世界》里从零开始挖钻石。但这些模型像偏科的学霸：能把单个游戏玩到人类水平，换个游戏就得从头学起。另一边是计算机视觉的“看片派”：他们从2016年开始，让AI啃下几百万小时人类视频，学习杯子掉地上会碎、门推一下会开的物理规律。直到OpenAI的Sora出现，AI能生成看起来完全符合物理的视频，但它只是个“放映机”——你没法让它暂停，输入一个动作，看接下来会发生什么。 2024到2025年，两项技术突破把两条路焊在了一起：AR-DiT让视频模型学会“按时间顺序”生成画面，而不是一次性全做完；Self Forcing把生成速度从35步压缩到4步。终于，AI既能“看片学物理”，又能“做梦预演动作”——这就是我们现在说的视频世界模型。

百亿美元砸出来的，是个“半成品”

资本的热情把世界模型吹成了机器人的“通用大脑”，但真实的能力边界，比融资额清醒得多。最成熟的应用是自动驾驶仿真：Waymo用世界模型生成暴雨、逆行车辆等极端场景，测试自动驾驶算法，这已经在生产环境里跑起来了。机器人领域也有小范围突破：DreamDojo能以0.995的准确率预测机器人策略的成功率，相当于给机器人做“模拟考”；DreamGen让机器人看一次抓放演示，就能在陌生环境里完成22种新动作。

但这些都是“特定场景的胜利”。现在最先进的机器人，炒虾得学50次演示，换个菜又得重来；通用家庭操作、家具组装这类需要精细触感的任务，所有方法都还在卡壳。更关键的是，直接用世界模型控制机器人的尝试，还停留在实验室论文里，没有经过独立验证。更值得关注的是，现在工业界用得最多的还是视觉-语言-动作模型（VLA）——它不用“做梦”，直接从人类演示里学动作。就连最领先的VLA模型Pi-0.7，也只是加了个小型世界模型做子目标规划，而不是完全替代。

巨头们的押注，各怀心思

百亿美元的融资里，藏着巨头们的战略棋盘。 NVIDIA是最激进的玩家：它开源了从视频预训练到机器人控制的全栈工具，就像当年用CUDA垄断AI算力一样，想把世界模型变成物理AI时代的“操作系统”——它的DreamDojo模型在4.4万小时人类视频上预训练，能实时生成符合物理规律的场景，但只有用它的Blackwell芯片才能跑起来。

Yann LeCun的团队反其道而行之：他们觉得“预测像素”是浪费算力，直接让AI学抽象的物理规律，不用生成视频。这种JEPA架构在抓放任务上实现了80%的零样本成功率，但它的“预测”是人类看不懂的抽象向量，就像让你闭着眼猜下一步棋，你永远不知道它想的对不对。而那些拿到大融资的机器人公司，大多选择“两条腿走路”：用VLA模型解决当下的落地问题，用世界模型探索未来的泛化能力——毕竟，资本要的是现在能落地的产品，而不是十年后的科幻。

当我们谈论机器人的“世界模型”时，其实是在问一个最朴素的问题：机器能不能像人一样，“理解”这个世界？现在的答案是：它能模仿人类的动作，能在特定场景里预测简单的物理变化，但离“理解”还差得远——它不知道鞋带的“软”、杯子的“脆”，只是从像素里学到了一组概率。就像一个背熟了题库的学生，能答对所有见过的题，但换个题型就懵了。 智能的本质，从来不是会做梦，而是会理解。 百亿美元砸出的，不是机器人的“通用大脑”，只是一个更聪明的“模仿者”。它离能帮你做家务的那天，还有无数个实验室的夜晚，和无数次失败的预演。

两条走了三十年的路，终于交汇了

百亿美元砸出来的，是个“半成品”

巨头们的押注，各怀心思

评论