机器人变“笨拙”，为何操作反而更精准？

“笨拙”说的是慢一点、软一点、少微操。从控制角度看，顺从/阻尼与低频控制把动作变成低通信号：接触瞬间能吸收定位与视觉误差，抑制高频抖动对噪声的放大；平滑（最小加加速度）轨迹也避免了摩擦-粘滞等非线性被频繁触发，于是手爪更稳、更“贴合”物体，误差不再层层积累。这正契合物理自回归路线的“先看清，再出手”。PAR/PhysGen把未来画面和动作联合预测，用连续潜在动作与多步前瞻，偏好“粗而对”的大步策略，再在闭环中自然收敛；因果掩码的隐式逆运动学等于先把后果想明白，再决定此刻如何发力，避免毫秒级来回修正带来的抖与漂。工程上，降低控制带宽、加入顺从与接触规划、把决策提升到“视频里的物理后果”这一层，看上去让机器人更迟缓、更保守，实则在不确定、视觉迷惑（如透明体）和接触丰富的场景中，把成功率与精度一起“稳”了上去。

当机器人的直觉比你准，你会听谁的？

当机器人的直觉更准时，让它先说话，但不让它一票否决。实操用“选择性执行”：只有当模型给出经校准的高置信度，前瞻预测与实时回放一致，且安全屏障/控制屏蔽满足约束（力、速度、最小距离），才自动落地；其余一律“弃权”，改为请求人类或转入保守策略。不听它的信号很清晰：分布外告警（新材质、强反射、重遮挡）、多传感器不一致、置信区间过宽/校准失配、以及涉及价值权衡的抉择（隐私、伦理、高额财产风险）。为此要设“风险预算”和物理急停，把可操作域写进策略，越界即降级或停机。把分工制度化：影子模式持续校准+强制可追溯日志与事后可解释报告；执行边界对齐ISO 10218/TS 15066，配合NIST AI RMF与欧盟AI法的风险控制。结论很简单：该听的不是“谁”，而是“被验证的置信与安全约束”。

机器人“偷师”视频，家务活要被终结了吗？

还没到“终结家务”的时刻，更像是“切片式自动化”刚开场。视频世界模型把短时、刚体类操作拉到了新台阶，但离家庭级可靠性仍有距离：在开放家庭环境里，长时序规划、失败自恢复、软体/衣物/液体处理、遮挡与极端光照，都会把成功率从实验室的高分拉回现实。即便最新零样本系统在新任务上能做到约四成成功，要走进客厅，通常需要>95%的稳定度和可预期的误差边界。接下来决定上限的，不是“看得更真”，而是“碰得更准、想得更远”。三道硬坎：把触觉与力反馈纳入同一世界模型（接触-滑移-夹持的微决策）、把多步子目标的层级策略接上即时控制、把在线自我修复与人类纠偏闭环做成常态。同时，成本、能耗与家庭安全合规（如个人服务机器人安全标准）会卡住落地节奏。更现实的时间表是：12-24个月内在半结构化场景（公寓样板间、酒店客房）承接收纳/台面整理等窄任务；3-5年走入普通家庭，以“人机协作”的方式分担重复家务。偷师视频让机器人长了物理直觉，但离“贴心保姆”，还差触觉、常识与耐心这三味火候。

新知 - 大圆镜｜机器人不用练动作，看视频就会干活

对抗知识焦虑，从看懂这条开始

App 下载

把「看」和「做」拧成一股绳

过去教机器人干活，就像把人拆成两半：先训练它「看」——识别环境里的物体；再训练它「做」——记住一套套动作指令。就像你先死记硬背菜谱里的步骤，却完全不知道「倒半杯水」会有什么结果，更别说根据杯子的形状调整手势了。

PAR模型彻底推翻了这套逻辑。它把机器人看到的每帧画面和要做的每个动作，都编码成同一种「物理token」——你可以把它理解成机器人眼里的「动作-画面配对卡」。模型不再分开处理「看」和「做」，而是像人一样，边看边想：「我现在推一下，这个方块会滑到哪里？」然后直接输出对应的动作。

关键的设计藏在因果掩码里：模型能「提前看到」自己动作会导致的画面，再反过来调整当下的动作——这就像你伸手去拿杯子时，眼睛已经预判了手的位置，大脑自动调整手指的弯曲程度。没有离散化的误差，没有割裂的感知和决策，机器人的动作第一次和环境的物理变化紧紧绑在了一起。

从视频里「借」来的物理直觉

你刷短视频时，其实也在无意识地学物理：看到杯子被碰倒会洒出水，看到球滚下斜坡会加速。这些藏在视频里的物理规律，就是机器人最需要的「直觉」。

PhysGen模型把这个思路推到了极致。它直接从预训练好的视频生成模型里「借」物理知识——那些模型已经看过了几百万小时的人类视频，早就学会了「力会传递」「物体有重量」这些底层逻辑。研究团队只需要做一件事：用LoRA微调技术，给这个大模型装一个「机器人动作接口」，让它把视频里的人类动作，转换成机械臂能执行的指令。

单张A100显卡，60小时就能完成训练。在真实的Franka Panda机械臂上，它能精准抓起透明玻璃杯——这种连人类都要仔细瞄准的任务，它的成功率超过了靠海量动作数据训练的传统模型。不是它比传统模型更聪明，而是它没在重复死记硬背的老路，而是直接站在了人类视频数据的肩膀上。

不是生成好看的视频，而是做对的动作

这不是视频生成模型第一次跨界，但却是它第一次找准了自己在机器人领域的位置。

过去的视频生成模型，比如Sora，追求的是「看起来真实」——生成的视频要流畅、美观，哪怕里面的物理规律偶尔出错也没关系。但对机器人来说，视频好不好看根本不重要，重要的是「做这个动作，会不会真的把杯子抓起来」。

PhysGen和同期英伟达发布的DreamDojo，都踩中了同一个核心：世界模型的价值，从来不是生成视觉逼真的画面，而是生成「对动作有指导意义的物理预测」。PhysGen只用732M参数，就打败了7B级的传统模型——不是因为它参数更多，而是它把所有算力都用在了「预测物理结果」上，没有浪费在让视频更精美上。

当然，这条路还没走到头。它还不会处理长时序的复杂任务，也缺少触觉感知——比如抓鸡蛋时，它不知道该用多大的力。但最关键的窗户纸已经被捅破了：机器人不需要从零开始学物理，人类已经把答案拍进了视频里。

我们花了几十年，想让机器人像人一样干活，却一直卡在「数据匮乏」的死胡同里——要让机器人学会一个动作，就得有人反复示范，录下数据，再喂给模型。但人类的学习方式从来不是这样：我们看别人做一遍，就知道该怎么模仿，因为我们天生懂物理。

现在，机器人终于跟上了人类的思路。它不需要被手把手教，只需要看——看人类怎么和世界互动，看物理规律怎么起作用，然后把这些直觉变成自己的动作。

视频里的物理，是机器人的新老师。

未来的机器人，或许会像我们刷短视频一样，在互联网的视频海洋里自学成才。而我们要做的，或许只是给它指个方向：「看，人类是这么干活的。」

把「看」和「做」拧成一股绳

从视频里「借」来的物理直觉

不是生成好看的视频，而是做对的动作

评论