AI学会“脑补”，机器管家要来了？

“脑补”确实学会了，但“机器管家”还没敲门。JEPA 系列把预测搬到抽象表征里，已经能在隐空间里做多步想象、用 MPC 选动作，实验室里能靠少量机器人视频把“看懂—预想—执行”串起来。可一进真实家庭，问题立刻变得黏稠：长时程误差积累、视角和光照变化、物体被遮挡后的不确定性、以及接触丰富的擦拭/拧盖/折叠等操作，都在放大世界模型的微小偏差。离“机管家”之间的真空，不在算法有没有“常识火花”，而在系统工程的闭环：要把低频的语义推演接到200Hz以上的力/位姿控制；要让模型对不确定性有量化并在规划时避险；要有可持续的具身数据生产方式（远程干预+共享自治），让模型在新家中自我校准。更务实的现实是硬件与安全：家用成本、故障间隔、安全冗余与合规，任何一项不足，都会把“聪明”拽回地面。所以，先来的很可能是“半自治家务助手”：在受控环境里做拾放、开关、清洁等标准化子任务，必要时由云端远程接管，边服务边学习。若世界模型路线在未来两三年把长程规划的误差与视角敏感性压下去，同时移动操控硬件价格与可靠性达标，真正“可用、可托付”的家庭机器人，才有望在这十年后半段走进客厅。届时，它不需要像人那样全知全能，但必须在不确定中稳稳地“少犯错”。

丢掉90%信息，AI反而更聪明了？

是的，前提是丢掉的是“无用信息”。JEPA把目标从还原像素改为在抽象空间预测未来，主动忽略对未来不可预测或与任务无关的细节（纹理、噪点、背景）。这等同信息瓶颈：用更短表征保留对未来/回报的互信息。90%时空掩码抬高难度，迫使模型跨大范围整合证据，堵死“邻帧插值”等捷径，于是学到可迁移的动力学与因果结构。证据很清楚：在冻结与小样本设定下，V‑JEPA 超过像素重建，同时更快（免解码）且更抗遮挡与抖动；机器人里，V‑JEPA‑2 的潜表征支持零样本多步规划；医学 EchoJEPA 把超声散斑当噪声丢掉，少标注即达标。收益本质是“丢细枝末节，守结构要义”。但“聪明”有边界：需微纹理或稀有征兆的任务（病灶边缘、外观质检）会受损；若掩掉真正致因变量，规划会偏。工程上应做目标导向的选择性丢弃，并用潜变量承载不确定成因，让保留下来的每一比特都为预测或控制服务。

这种AI，在模仿动物大脑的直觉？

更像是在“借鉴”动物直觉的工作原理，而非复制大脑本身。JEPA/ V‑JEPA 系列把注意力放在可预测的潜在状态上，丢掉像素噪声，分层按时间尺度做前瞻预测，这与脑科学里的“预测加工”相呼应：大脑在抽象表征里预估下一步，只在不符预期时产生强误差信号。它们在“违反物理直觉”类评测上能高准确识别异常，并在机器人上实现零样本多步规划，说明已学到类似“直觉物理”的功能。但它仍不是生物级的复制品：没有脉冲神经元与神经调质，没有主动注视与全身感知回路，规划更多依赖模型预测控制而非海马回放；对视角变化、超长时程与因果抽象仍会累积误差。更准确的描述是：这是一套工程化的“直觉计算”——用潜在预测来压缩世界、度量惊讶、驱动行动，功能上靠近动物直觉，但实现机制不同。

新知 - 大圆镜｜LeCUN放弃像素重建，AI开始真正理解世界

对抗知识焦虑，从看懂这条开始

App 下载

当GPT还在为生成多余的手指道歉时，Yann LeCun的团队已经悄悄换了赛道——他们让AI彻底放弃了还原像素的执念。2026年3月，三篇JEPA架构的论文接连发布：V-JEPA 2.1能在完全陌生的环境里指挥机器人抓举物品，LeWorldModel用1500万参数实现了比大模型快48倍的规划速度，ThinkJEPA甚至能结合语义逻辑完成长周期动作推演。这不是简单的模型升级，而是AI从「复刻像素」到「理解规律」的关键转身。为什么放弃像素重建就能让AI突破物理常识的瓶颈？

像素重建的陷阱：AI一直在做无用功

你可以把传统生成模型想象成一个只会抄作业的学生——它能精准复刻每一个字，却完全不懂题目的意思。像素重建任务要求AI把图像或视频的每一个像素都还原出来，这就像让学生抄下试卷上的所有标点符号，哪怕是印刷的墨点。

现实世界的信息量里，90%都是无关紧要的噪声：树叶的晃动、光照的明暗、镜头的灰尘。AI耗费大量算力去还原这些细节，反而错过了真正重要的规律——比如杯子会因为重力下落，门会因为被推动而打开。LeCun团队的JEPA架构，就是要让AI从抄作业的学生，变成能推导公式的研究者。

JEPA的核心逻辑很简单：它不预测像素，而是预测像素背后的「抽象特征」。就像你看一场球赛，不需要记住每一个观众的脸，只要能追踪球的轨迹和球员的战术动作就行。在JEPA的隐空间里，一杯咖啡的特征不是棕色的像素点，而是「可以被拿起的容器」「装有液体」「会因为倾斜而流出」这些抽象属性。

从感知到控制：AI学会了「做计划」

如果说JEPA的第一步是让AI看懂世界，那第二步就是让AI学会「做计划」——这要归功于动作变量的引入。

早期的JEPA模型只能预测静态或动态的视觉特征，就像一个只会看电影的观众，能说出下一个镜头会出现什么，但不知道怎么改变剧情。而ACT-JEPA和V-JEPA 2.1引入了动作序列变量后，AI终于从观众变成了编剧：它不仅能预测「如果推杯子，杯子会移动」，还能规划出「先伸手，再握住杯柄，最后平移到桌面另一侧」的完整动作链。

这种端到端的规划能力有多厉害？V-JEPA 2.1只需要62小时的机器人视频数据微调，就能在完全陌生的环境里完成抓举、移动、放置物品的任务，成功率达到65%-80%。对比之下，传统的机器人学习往往需要在特定环境里反复试错，稍有场景变化就会失效。

更关键的是效率提升：LeWorldModel用1500万参数实现了比传统大模型快48倍的规划速度，单张GPU几小时就能完成训练。这意味着AI终于能像人类一样，在脑子里快速推演各种可能性，而不是在现实世界里一次次试错。

挑战仍在：AI离「真正理解」还有多远

JEPA架构的突破让人兴奋，但它离真正的通用智能还有三道坎。

第一道坎是长周期推理。目前的JEPA模型能完成几步到十几步的动作规划，但面对需要几十步甚至上百步的复杂任务——比如组装一台家具，误差就会像滚雪球一样累积。就像你能算出1+1=2，但让你心算100位数的乘法，很容易出错。

第二道坎是数据泛化。JEPA模型虽然能在陌生环境里工作，但它的泛化能力依然依赖于训练数据的多样性。如果训练数据里没有出现过「带把手的陶罐」，它可能就不知道怎么抓举。这就像一个只见过杯子的人，第一次看到陶罐时，需要花时间适应它的形状。

第三道坎是因果理解。JEPA模型能学会「推杯子会导致杯子移动」，但它不一定理解「为什么」——它只是从数据里学到了这个关联，而不是真正理解重力和摩擦力的作用。这就像一个孩子知道按开关会开灯，但不知道电是怎么流动的。

当AI不再执着于复刻像素，它终于开始触摸到智能的本质——不是对细节的精确还原，而是对规律的抽象理解。JEPA架构的意义，不在于它让AI完成了多少具体任务，而在于它为AI指出了一条更接近人类认知的道路。

未来的AI，可能不需要记住每一片树叶的形状，但它会知道树叶会因为风而晃动；它不需要还原每一个像素的颜色，但它会知道火焰是热的，冰是冷的。智能的本质，从来不是复刻，而是理解。

这或许就是LeCun团队坚持的意义：他们不想让AI成为一个只会抄作业的学生，而是要让它成为能探索世界规律的研究者。

像素重建的陷阱：AI一直在做无用功

从感知到控制：AI学会了「做计划」

挑战仍在：AI离「真正理解」还有多远

评论