对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
物体操作速度|机器人盲操作|Transformer算法|关节传感器|苏黎世联邦理工|具身智能|人工智能
想象你闭着眼睛,指尖捏着一颗骰子,仅凭手指关节的细微触感,就能精准把它转成想要的面——这是人类不用过脑子的本能。但对机器人来说,过去要完成这种「盲操作」,要么得装一堆摄像头盯着,要么得贴满昂贵的触觉传感器,还经常因为遮挡、光线问题掉链子。直到苏黎世联邦理工的团队拿出了新方案:给机器人装几个几块钱的关节传感器,再喂给它一套Transformer算法,居然让机器人仅凭自己关节的动历史,就「看」到了手里的物体,转方块的速度比传统方法快3倍,成功率100%。这到底是怎么做到的?
你可以把机器人的关节传感器想象成人类的肌肉记忆——每一次手指碰到物体,关节的实际位置都会和「本该到的位置」产生一点点偏差。这个偏差不是乱飘的:抓大物体时,手指会被撑开,偏差会往一个方向偏;抓重物体时,关节会被压得弯一点,偏差又会是另一种模式。这些偏差就是物体的「影子」。
而这次用到的Proprioceptive Transformer(本体感知变换器),就是个能读懂这些影子的「侦探」。它不像传统算法只看当下的关节角度,而是会把过去几十帧的关节数据全部拉出来,用Transformer的自注意力机制找规律:这个关节的偏差和那个关节的偏差在时间上有什么关联?不同大小的物体留下的偏差模式有什么不同?
关键的一步是「教师-学生蒸馏」训练:先在仿真里训练一个「全知教师」,它能直接看到物体的位置、转速;再训练一个「蒙眼学生」,也就是这个Transformer,它只能看关节数据。让学生模仿教师的动作,同时逼着它从关节偏差里「还原」出教师看到的物体状态——就像让一个没看过骰子的人,仅凭别人捏骰子的手指动作,猜出骰子的点数。

这个方案的硬件基础,是ORCA灵巧手上的16个微型磁性角度传感器——每个只要几块钱,却直接装在关节轴上,能绕过腱驱动的弹性和摩擦,精准读到关节的真实角度。对比一下用电机编码器的版本:后者是通过电机转的角度反推关节位置,会被绳子的弹性、摩擦干扰,转方块的速度直接降了26.8%。

实验数据才是最狠的:用这套方法转55mm的立方体,每分钟能转11.83圈,是传统仅靠本体感知的强化学习方法的3.1倍,比依赖视觉的方法还快3.8倍。更夸张的是,不管是转45mm的小方块还是65mm的大方块,成功率都是100%——它真的能从关节数据里「感知」到物体的大小。
研究团队还做了个有意思的对比:把Transformer换成MLP或者LSTM,物体位置的重建误差直接飙升20%以上。原因很简单:MLP不会看时序,LSTM记不住太久远的信息,只有Transformer的自注意力能把过去所有时刻的关节偏差串起来,拼出完整的物体状态。
当然,这个方案也不是完美的。它极度依赖ORCA手这种能直接测关节角度的硬件——如果换成普通机器人手上的电机编码器,性能会打折扣;目前也只验证了转方块这一个任务,要是换成拧螺丝、翻硬币这种需要更精细姿态控制的活,能不能行还不好说;而且训练时用了大量「域随机化」模拟真实世界的误差,要是碰到超出模拟范围的极端物体,比如特别软、特别滑的东西,可能也会拉胯。
但它的意义在于,第一次用扎实的实验证明:机器人不用眼睛、不用昂贵的触觉传感器,仅凭最基础的关节数据,就能完成高难度的灵巧操作。这相当于给机器人装上了「肌肉记忆」,让它能在黑暗、遮挡、灰尘大的环境里干活——比如太空舱里拧螺丝,核辐射区处理废料,或者给盲人用的假肢。
更值得关注的是,这种「从自身运动数据里感知外界」的思路,完全跳出了传统机器人「靠外部传感器看世界」的框架。未来说不定能结合低成本的触觉传感器,或者偶尔瞟一眼低帧率的视觉,就能实现更鲁棒的操作。
我们总觉得机器人得像人一样「看」和「摸」才能干活,但这次的研究告诉我们:有时候,让机器人好好「感受自己」,就足够了。就像人类不用看自己的手指,也能系鞋带、弹钢琴——这种本体感知的智慧,才是灵巧操作的核心。
未来的机器人,可能不会再顶着一堆摄像头,也不会在手上贴满传感器。它会像我们一样,仅凭关节的细微颤动,就知道手里的东西是什么,该怎么动。
关节动一动,世界尽在掌握。