为何说机器人得先“会开车”？

因为“开车”是现实世界里最成熟、可规模化的具身智能训练场。道路规则清晰、反馈密集，能把世界模型和长时序决策的能力快速打磨出来；更关键的是，海量车队的第一人称数据、影子模式回放、OTA闭环与SOTIF/ISO 26262等安全工具链，已经把“数据—训练—验证—部署”的流水线压到工业级成本，这在通用机器人领域暂时无可替代。从工程分解看，车端能先把“感知—预测—中层规划”的通用大脑练到稳定、可解释、可审计，随后再为机器人补齐“近场触觉/力觉+高带宽全身控制”的小脑即可对接；成熟的CARLA/Drive Sim一类Real2Sim2Real流程与高清地图先验，也能直接充当具身世界模型的自监督燃料。先“会开车”，不是把机器人变成车，而是用最经济的方式先把“大脑”炼成熟，再把“身体”的难题各个击破。

机器人大脑和身体，谁决定上限？

结论先抛出：长期看，上限更多由“大脑”决定；但当下真实可触达的上限，常被“身体”这道阀门卡住。大脑（VLA/世界模型）决定你能泛化到多少任务、学得多快、在未知情景里推理到哪一步；数据闭环和AI Infra则决定这条曲线爬升的速度与高度。这也是为什么一旦本体进入供应链规模化，行业差距迅速回到模型与数据上。可别低估身体给出的硬边界。没有灵巧手与力觉，再强的策略也捏不住钥匙、拧不动瓶盖；自由度、扭矩×带宽、传感分辨率与闭环延迟共同设定物理上限——力矩内环通常要跑到1–2 kHz，状态估计200–500 Hz，端到端操控延迟要压到50 ms内才顺手，人形稳态行走的核心控制环路往往要<10 ms。这些指标上不去，“大脑”的潜能就被硬生生截断。所以更贴切的说法是：身体给边界，大脑定天花板，数据与算力抬屋顶。未来胜负手在大脑与数据闭环，但在未来2–3年，谁先补齐灵巧手、力觉与低延迟伺服，谁的“大脑”才真正有资格触碰“上限”。

机器人大脑能像手机一样装App吗？

能，但不会像手机那样“装上就能用”。机器人技能和本体强耦合：关节自由度、手爪形态、相机位姿、摩擦与力控带宽都会改写策略效果；再叠加毫秒级实时与功能安全要求，决定了“App”更像“技能包”——包含模型权重、传感器与手眼标定、运动约束与安全边界，并分层挂在“大脑（VLA/世界模型）+低层控制”之上，通过OTA部署与灰度验证。现实进展已出现雏形：工业与移动机器人平台上已有可装卸的插件/任务包生态；人形与通用机器人也在走“通用大脑+场景技能”的路径。但要形成真正的“技能商店”，必须同时收敛三件事：统一的感知/动作接口与语义约定（如基于ROS 2、URDF/SDFormat、任务本体）；可复现的仿真—真机认证流水线与安全沙箱；跨形态的策略迁移与技能重定向（形态条件化策略、力控自适应）。保守看，未来2—3年内同一品牌/同一机型会率先支持“下载即用”的技能包；跨品牌“像手机装App”式生态，要等接口与安全标准真正统一后才会到来。

新知 - 大圆镜｜自动驾驶老兵转攻机器人，要造通用具身大脑

Q: 机器人大脑能像手机一样装App吗？

能，但不会像手机那样“装上就能用”。机器人技能和本体强耦合：关节自由度、手爪形态、相机位姿、摩擦与力控带宽都会改写策略效果；再叠加毫秒级实时与功能安全要求，决定了“App”更像“技能包”——包含模型权重、传感器与手眼标定、运动约束与安全边界，并分层挂在“大脑（VLA/世界模型）+低层控制”之上，通过OTA部署与灰度验证。 现实进展已出现雏形：工业与移动机器人平台上已有可装卸的插件/任务包生态；人形与通用机器人也在走“通用大脑+场景技能”的路径。但要形成真正的“技能商店”，必须同时收敛三件事：统一的感知/动作接口与语义约定（如基于ROS 2、URDF/SDFormat、任务本体）；可复现的仿真—真机认证流水线与安全沙箱；跨形态的策略迁移与技能重定向（形态条件化策略、力控自适应）。保守看，未来2—3年内同一品牌/同一机型会率先支持“下载即用”的技能包；跨品牌“像手机装App”式生态，要等接口与安全标准真正统一后才会到来。

对抗知识焦虑，从看懂这条开始

App 下载

从马路到车间，底层逻辑没换过

自动驾驶和具身智能，看起来是风马牛不相及的两个赛道，但在王一舟眼里，本质都是「给物理世界的智能体装大脑」。你可以把自动驾驶的世界模型想象成一个超级导航：它融合雷达、摄像头、地图的所有数据，提前算出10秒后前车会不会变道、路口会不会有行人冲出来，然后规划出最安全的路线。而具身智能的世界模型，就是给机器人装一个能「脑补」的大脑——不仅要看到眼前的零件，还要能预判「我伸手去抓，它会往哪个方向滑」「我用力太大会不会捏碎它」。自动驾驶用了十年磨出来的本事：多模态感知融合、数据闭环训练、鲁棒控制逻辑，全是具身智能急需的「基本功」。比如自动驾驶里的模型预测控制（MPC），原本是用来控制汽车不压线、不追尾，现在套用到机械臂上，就能让它在抓取易碎品时，精准控制力度不超过安全阈值。但具身智能的难度，是自动驾驶的N次方。汽车只需要在二维的马路上跑，机器人却要在三维空间里做拧螺丝、叠衣服这种精细动作；汽车的环境有交通规则约束，机器人却要面对堆满杂物的仓库、随时有人走动的车间——每一个变量都是新的挑战。

为什么机器人的核心是「大脑」而非身体

2026年的具身智能赛道，已经从「比谁的机器人跳得高」转向「比谁的机器人能干活」。随着中国供应链的成熟，机器人本体——也就是机械臂、机身、传感器这些硬件——正在快速标准化，就像十年前的智能手机，拼到最后，核心竞争力还是操作系统和生态。王一舟团队押注的「通用具身大脑」，本质是一套能适配不同机器人的智能系统：给机械臂装上，它能在工厂里拧螺丝、搬零件；给服务机器人装上，它能在医院里送药、在家庭里叠衣服。这套系统的核心，是把多模态大模型和因果世界模型焊在一起：多模态大模型负责「看懂」视觉信号、「听懂」人类指令，因果世界模型负责「想明白」动作的后果。和直接把ChatGPT这类通用大模型嫁接到机器人上的思路不同，他们坚持从底层自研。通用大模型擅长「说」，但不擅长「做」——它能告诉你「怎么叠衣服」，但不知道「手要用力多大才能把衣角拉直」。而具身原生模型，是从机器人的动作数据里训练出来的，每一个参数都对应着真实的物理反馈。当然，这条路难走得多。光是搭建数据闭环，就要解决机器人在真实环境里的自动数据采集、标注、仿真问题。他们用的RADAR系统，能让机器人自动完成「任务生成-执行-评估-环境重置」的循环，不用人工干预，一天就能采集上万条有效数据——这在自动驾驶领域是常规操作，但在具身智能领域，还是少数玩家能做到的事。

工程化的坑，才是真正的门槛

很多人觉得，具身智能的难点是算法，但王一舟说，真正的门槛是工程化——是把实验室里的Demo，变成能在工厂里连续运行1000小时不出错的产品。第一个坑是「现实差距」：仿真环境里训练得再好的机器人，到了真实车间，可能因为地面的一点灰尘、零件的一点磨损，就抓不住东西。自动驾驶解决这个问题的办法，是用海量真实道路数据训练模型，具身智能也一样——他们把机器人放到真实工厂里试错，把每一次失败的记录都喂给模型，让它学会应对各种「意外」。第二个坑是多模态融合：机器人要同时处理视觉、触觉、力觉的数据，就像人用眼睛看、用手摸、用力道感知物体。这需要把不同传感器的数据精准同步，差几毫秒，机械臂的动作就会偏掉。王一舟团队把自动驾驶里的传感器融合算法改了又改，才让机器人能像人一样，「看一眼、摸一下」就知道怎么抓东西。

还有一个绕不开的坑是成本。现在一台能干活的具身智能机器人，成本还是几十万，要普及到工厂，必须把成本降下来。而成本的大头，除了硬件，就是「大脑」的研发投入——谁能先把具身智能的算法效率提上去，用更少的算力训练出更聪明的模型，谁就能拿到成本优势。

王一舟把从自动驾驶到具身智能的转型，比作「从开汽车到开飞机」——原理相通，但难度呈指数级上升。自动驾驶用了十年，才从实验室走到马路上；具身智能要从车间走到千家万户，可能需要更长的时间。但有一点是确定的：当机器人本体的硬件不再是壁垒，「大脑」的竞争才刚刚开始。那些在自动驾驶领域磨出来的工程化能力，那些对真实物理世界的理解，正在成为具身智能赛道最稀缺的资产。 智能的终极形态，从来不是会说话，而是会做事。 这句话不仅适用于自动驾驶，也适用于具身智能——毕竟，能帮人类把活干好的AI，才是真正有用的AI。

从马路到车间，底层逻辑没换过

为什么机器人的核心是「大脑」而非身体

工程化的坑，才是真正的门槛

评论