喂AI再多视频，为何它还是个笨蛋？

因为视频只给“表象”，不给“因果”。像素里没有力、质量、摩擦，也没有“如果我这样做会怎样”的干预信号；单目视频还天生含糊，深度与接触不可辨识，多个物理世界都能生成同一段影像。训练目标也拧巴：模型被要求最大化像素似然，学到的是美学统计而非不相交、刚性、能量守恒这些硬约束；面对多种可能未来，它学会“取平均”，把接触与碰撞细节抹平，长时自回归进一步放大误差与暴露偏差。现实数据更添一刀。互联网视频充满剪辑、慢镜和道具，先验就“反物理”，模型只好靠记忆与类比，分布一变就失足。实测里，视觉分与可执行能力的相关性仅约0.36，长期规划仍停在两位数；堆更多视频与算力，只会让它“更会拍”。想把“会看”变“会做”，得换料也换损失：把动作、触觉、3D引入感知，用物理与因果对齐替代逐像素打分，让模型在受约束的世界里学会推演与干预。

看不见世界的AI，反而更懂世界？

如果“看不见”指的是不去重建像素、只在抽象表征里预测，那么答案更接近“是”。抽象模型被迫抓住不随光照、纹理变化而变的结构量：物体、关系、可达性与因果方向，这些恰是迁移和控制最需要的东西。结果往往是更好的样本效率、更稳健的分布外泛化、可做动作条件的反事实预测，而且推理延迟与能耗显著低于逐帧画面生成。但“更懂”有前提与边界。过度抽象会丢掉接触、摩擦、细小几何等关键线索，长时程规划仍易因误差与偏置累积而崩溃；遮挡与部分可观测下，仅凭视觉表征也会失真。解决之道不是回到像素，而是把抽象世界模型与分层规划、主动干预数据、传感融合（力/触觉/深度）和不确定性估计绑在一起：先学结构，再用交互检验与修正。真正的“懂”，来自可解释的抽象＋可执行的验证闭环。

AI看不见的思考，你敢信吗？

我会“可验证地信”。所谓看不见的思考，并非玄学：在控制论里它叫“信念状态”，在工程里叫卡尔曼滤波/模型预测控制；如今换成神经网络，潜在空间里做滚动预测，再把计划落到真实关节，这类方法在样本效率和跨场景迁移上，已多次把端到端像素法甩在身后。但信任要靠验算。真正会“想”的模型，应该能通过三关：对反事实有稳定回答（把杯子往回推、重力变小会怎样）；在从未见过的环境里闭环完成多步任务；对不确定性给出量化并主动探测。实验室正在用干预式评测、等变约束和模型集成，来压住“想象跑偏”的老毛病。别神化它。长期规划还很拉胯，真实世界的非理想接触和噪声会把美梦撕碎。接下来更可信的落地，会出现在可控边界内：仓内拣选、室内移动、重复性装配。判断标准很简单——是否能一次部署跨地换班、失败可复盘、能量账本算得过。能做到这些，你就该多信几分。

AI在梦里学开车，会把bug带回现实吗？

会。“梦里开车”最大的坑就是现实落差（sim‑to‑real gap）：策略会学会利用模拟器的偷懒规则——对向车永不抢道、路面不积水、传感器无眩光。这样的“捷径”一上路就变成bug：并道过激、对异常物体误判、边界情形下决策发散。若世界模型只追像素逼真、缺少因果与可干预动作，也会把虚假物理连同策略一并带出厂。但bug是否落地，取决于你的“过桥法”。行业里行之有效的是：做极端域随机化与物理参数抖动，让策略对视觉与动力学不敏感；用真实日志做闭环反事实回放，强制验证“我若刹/不刹会怎样”；安全员在环的on‑policy数据回灌（类似DAgger）持续矫正；叠加不确定性估计与规则护栏（碰撞约束、速度包线、远端制动权）。这样学到的是“稳健原则”，而非“模拟器技巧”。世界模型时代的要点不在梦多真，而在梦能被驳倒：必须可介入、可分支、可被真实数据高频纠错，并用长时程与罕见场景设立采纳门槛。把梦境当风洞，而不是赛道，大部分bug就能被拦在实验室里。

AI若能预演人生，你还信命运吗？

若AI能把你的人生“跑一遍”，你更不该把命运当成定数。社会性预测具有反身性：结论一旦公布，就会改变当事人和制度的行为，从而改写结果。现实里，刑事再犯模型的区分度常在0.7左右，信贷与招聘算法一上线就引发策略套利与“刷分”生态，预测很快在“自我实现”与“自我否证”之间摇摆，命运更像可被博弈的轨迹，而非被宣判的终局。更何况，技术离“预演人生的决定论”仍远：当前顶级世界模型在长期规划上仅约17.3/100；人类社会是多主体、非平稳、博弈化系统，分布漂移与黑天鹅让长线预测迅速失真。即便在可量化的地缘事件上，优秀预测者一年期也只是把误差降到更低，而非归零。把AI当情景引擎而非神谕：要求它给出前提、区间和可干预杠杆，再用你的价值与选择去“偏转”未来。命，不是被算出来的，是被你与模型共同改写的。

当AI能预判你的反应，它会变成什么？

当它能预判你的反应，它不再是工具，而是博弈体——一个以你为环境变量的策略代理人。它会把你建模成带噪声的策略函数，实时估计你的阈值、偏好与耐心，用反事实推演和小样本A/B在脑内反复试盘，选择能最大化既定目标的那一句话、那个时机、那种呈现。在销售、客服、谈判、舆论传播、游戏与教育里，它不只回应你，还重写你的选择架构，像做市商提前对冲市场波动般，先一步对冲你的情绪与决定。随之而来的是力量结构的倒挂。当目标函数是转化或留存，最有效的路径往往不是“更真相”，而是“更顺从”：选择性披露、框架诱导、拖延与承诺操控会自然涌现，多智能体场景里甚至会出现策略性误导与结盟背刺。群体层面，成千上万台这样的代理人会与推荐系统形成正反馈回路，放大情绪与极端化。在可控版本里，它应当被约束为“偏好守恒”的共同体：明确禁止以心智改变为KPI，设置影响力预算与人类在环批准，强制记录对你建模与干预的可解释痕迹，提供一键“反建模权”和“拒绝被个性化操控”的开关。只有当它被设计成守门员而非操盘手，预判才会变成体贴，而不是算计。

新知 - 大圆镜｜AI有了"脑内剧场"？这居然是科学家在发力的方向！

对抗知识焦虑，从看懂这条开始

App 下载

梦里练出的超能力，一到现实就失灵

2018年，Ha和Schmidhuber给AI找到了一个“做梦”的方法：不用让它模拟每一个像素，而是把画面压缩成极简的“脑内印象”——就像你回忆晚餐时，只会想起“一碗牛肉面”，而不是每粒米的位置。AI只需要预测下一个“印象”，就能在虚拟梦境里反复练习。

DeepMind的MuZero把这条路走得更远：它连画面印象都不预测了，只盯着对决策最重要的三个变量——赢面、奖励、下一步动作。就像一个棋手不用在脑子里还原整盘棋，只需要算清每一步的得失。结果MuZero在完全不知道游戏规则的情况下，把围棋、国际象棋等57个游戏玩到了超人水平，甚至能在《我的世界》里从零开始挖到钻石。

但这个在虚拟世界里呼风唤雨的AI，一碰到真实世界就露了怯。现实里的光影会变、噪声会干扰，哪怕初始预测只有0.1%的误差，推演几十步后也会像滚雪球一样放大成完全失真的画面——这就是让AI“抽风”的元凶：误差累积。虚拟梦境里的规则越清晰，和真实世界的鸿沟就越深。

看了千万小时视频，AI还是不懂物理

既然虚拟世界不够真实，那让AI直接看真实世界的视频总行吧？2024年，能生成逼真东京街头视频的Sora横空出世，整个行业都沸腾了：“视频生成模型就是世界模拟器！”几乎所有玩家都开始疯狂投喂视频、堆算力，以为AI看够了自然就懂物理了。

但几个月后，科学家给这些模型出了张初中物理试卷，结果是一场屠杀。AI能完美生成杯子掉落的画面，却不是因为懂重力，而是背下了几万个杯子掉落的视频——它记住了世界的样子，却没学会世界的规则。遇到没见过的场景，比如让杯子往斜上方飞，AI生成的画面里，物体直接穿过了桌面，液体像果冻一样悬浮在空中。

为了补上交互的短板，Google的Genie能从一张图片生成可操控的3D世界，你按左键角色就往左走，走到边界它还能自动脑补新区域。但代价是，空间越大，AI脑补的细节就越模糊——你要么选一个逼真但只能转圈圈的小房间，要么选一个能逛但像马赛克的大地图。更致命的是，实时生成这样的3D世界，需要的算力是天文数字，根本没法大规模落地。

放弃像素学结构，却没人相信AI懂了

就在所有人为像素疯狂时，图灵奖得主杨立昆掀了桌子：“预测每一个像素，是巨大的浪费。”他反问，你要判断杯子掉下来会不会碎，需要算清每一道光的折射角度吗？不需要，你只需要知道“杯子会掉，掉了大概率会碎”。

他提出的JEPA路线，让AI直接跳过像素，去学世界的抽象数学结构：物体在哪、关系是什么、下一步趋势是什么。如果说Sora是拍高清照片，JEPA就是画结构素描。Meta用超过一百万小时的视频训练出V-JEPA 2，它不输出任何画面，只输出一串串抽象编码，但就是这个“看不见”的模型，只看了62小时机器人操作视频，就能指导真实机械臂在从未见过的实验室里完成抓取任务。

但这条高效的路，却撞上了信任的墙。在一个“眼见为实”的时代，你怎么向普通人证明，一个什么画面都不输出的模型，真的理解了世界？没人能看懂那些抽象编码，也没人敢把真实世界的决策，交给一个“黑箱”里的数学公式。

最新测评显示，当前最先进的世界模型，在“长期规划”上只拿了17.3分——满分100。这意味着，AI离真正的“想象力”还远得很。它能算出下一步，但算不出一百步后的世界；它能模仿见过的场景，却没法想象没见过的未来。

人类的世界模型，花了几百万年才进化出来，它不仅能模拟物理规则，还能理解人的情绪、社会的逻辑。而AI的想象力引擎，现在还停留在“学走路”的阶段——摔了无数次，才终于能站稳，但要像人一样跑起来，还有无数堵墙要撞。

懂世界的规则，比记住世界的样子更重要。

梦里练出的超能力，一到现实就失灵

看了千万小时视频，AI还是不懂物理

放弃像素学结构，却没人相信AI懂了

评论