机器人“失明”，为何双手反而更巧？

因为“失明”切掉了最慢、最不稳定的那路感知。关节/力觉本体信号以百至千赫兹刷新（常见500–2000 Hz），延迟毫秒级；相机只有几十赫兹，且一遇遮挡、反光、低光就抖。接触操控讲究瞬时微调，低延迟高带宽能把阻尼、顺应控制拧得更紧——手指在微米级打滑前就完成力位重分配，反而更稳更快。而双手让系统从“开链”变“闭环”。两只手与物体构成封闭运动链，多接触点把物体姿态强约束；在“非滑移”近似下，物体的位姿和扭矩可由两手关节微小偏差与历史速度差“反演”出来，每只手既是执行器也是高精度传感器。信息论上这等于把可观测度拉满、把噪声平均掉，再配上能跨时序聚合差分模式的Transformer，物体就像被“摸”得一清二楚。少了视觉延迟与遮挡，多了接触约束与冗余观测，双手在黑暗里更巧并不神秘，纯是带宽、约束与可观测性的胜利。

抛弃视觉后，机器人的直觉有多强？

强在“看不见也能见”。当手指与物体接触时，物体把自己的几何与运动痕迹“写进”关节轨迹里——命令角与实测角的细微偏差、微振与迟滞，构成一条高带宽、毫秒级、免遮挡的信息通道。Transformer把这条通道里的长时序线索解码成状态估计，于是无需相机与触觉，依然能稳定、快速地完成接触主导的操控。但这份直觉有边界。它依赖持续接触与相对刚性的物体，对软体、强时变摩擦或极低接触力场景，观测性会塌缩；缺少绝对参照时，精确对齐目标角或全局位姿也更吃力。长期运行还要与温漂、偏置和腱传动非线性赛跑。现实中的解法是“以本体为主、稀疏校准”：低频视觉/触觉打点校正，加上主动探测动作提升可观测性。结论很务实：抛弃视觉后，本体感知已足够支撑一大类接触驱动的灵巧原语——滚动、指行走、枢转、硬件件的连续旋转与在手重排，甚至还能隐式判断“拿没拿住、物体多大”。要走向开放世界装配与高精度对齐，它是核心底座，但仍需与外感知结伴前行。

极简感知，会是机器人进化的捷径吗？

在不少高频、接触主导的子任务上，“极简感知”确实像捷径。像PT这类只吃本体信号的策略，砍掉昂贵脆弱的外感知链路，换来更低延迟、更小能耗和对遮挡的天然免疫；在几何已知、接触稳定、动力学可学习的场景里，物体状态对关节历史是“可观”的，记忆模型把微小误差纹理积累成状态，于是跑得又稳又快。对要长时在线的移动平台，这还释放了宝贵算力预算。但它不是通往通用机器人的独木桥。信息论的天花板摆在那儿：未知几何/材质、拓扑变化、远场目标选择与避障，单凭本体不可观；长时漂移、温漂、磨损也会让隐式表征走样。更现实的路径，是“感知稀疏化”而非“去感知”：以本体为主干，叠加低帧率视觉/事件相机或廉价触觉作稀疏校准，配合在线系统辨识与策略蒸馏，把外感知当纠错脉冲而非拐杖——这样既走得快，也走得远。

新知 - 大圆镜｜机器人闭眼转魔方？靠关节传感器就做到了

对抗知识焦虑，从看懂这条开始

App 下载

从关节数据里「读」出物体的影子

你可以把机器人的关节传感器想象成人类的肌肉记忆——每一次手指碰到物体，关节的实际位置都会和「本该到的位置」产生一点点偏差。这个偏差不是乱飘的：抓大物体时，手指会被撑开，偏差会往一个方向偏；抓重物体时，关节会被压得弯一点，偏差又会是另一种模式。这些偏差就是物体的「影子」。

而这次用到的Proprioceptive Transformer（本体感知变换器），就是个能读懂这些影子的「侦探」。它不像传统算法只看当下的关节角度，而是会把过去几十帧的关节数据全部拉出来，用Transformer的自注意力机制找规律：这个关节的偏差和那个关节的偏差在时间上有什么关联？不同大小的物体留下的偏差模式有什么不同？

关键的一步是「教师-学生蒸馏」训练：先在仿真里训练一个「全知教师」，它能直接看到物体的位置、转速；再训练一个「蒙眼学生」，也就是这个Transformer，它只能看关节数据。让学生模仿教师的动作，同时逼着它从关节偏差里「还原」出教师看到的物体状态——就像让一个没看过骰子的人，仅凭别人捏骰子的手指动作，猜出骰子的点数。

几块钱的传感器，比视觉还靠谱

这个方案的硬件基础，是ORCA灵巧手上的16个微型磁性角度传感器——每个只要几块钱，却直接装在关节轴上，能绕过腱驱动的弹性和摩擦，精准读到关节的真实角度。对比一下用电机编码器的版本：后者是通过电机转的角度反推关节位置，会被绳子的弹性、摩擦干扰，转方块的速度直接降了26.8%。

实验数据才是最狠的：用这套方法转55mm的立方体，每分钟能转11.83圈，是传统仅靠本体感知的强化学习方法的3.1倍，比依赖视觉的方法还快3.8倍。更夸张的是，不管是转45mm的小方块还是65mm的大方块，成功率都是100%——它真的能从关节数据里「感知」到物体的大小。

研究团队还做了个有意思的对比：把Transformer换成MLP或者LSTM，物体位置的重建误差直接飙升20%以上。原因很简单：MLP不会看时序，LSTM记不住太久远的信息，只有Transformer的自注意力能把过去所有时刻的关节偏差串起来，拼出完整的物体状态。

不是万能药，但打开了新大门

当然，这个方案也不是完美的。它极度依赖ORCA手这种能直接测关节角度的硬件——如果换成普通机器人手上的电机编码器，性能会打折扣；目前也只验证了转方块这一个任务，要是换成拧螺丝、翻硬币这种需要更精细姿态控制的活，能不能行还不好说；而且训练时用了大量「域随机化」模拟真实世界的误差，要是碰到超出模拟范围的极端物体，比如特别软、特别滑的东西，可能也会拉胯。

但它的意义在于，第一次用扎实的实验证明：机器人不用眼睛、不用昂贵的触觉传感器，仅凭最基础的关节数据，就能完成高难度的灵巧操作。这相当于给机器人装上了「肌肉记忆」，让它能在黑暗、遮挡、灰尘大的环境里干活——比如太空舱里拧螺丝，核辐射区处理废料，或者给盲人用的假肢。

更值得关注的是，这种「从自身运动数据里感知外界」的思路，完全跳出了传统机器人「靠外部传感器看世界」的框架。未来说不定能结合低成本的触觉传感器，或者偶尔瞟一眼低帧率的视觉，就能实现更鲁棒的操作。

我们总觉得机器人得像人一样「看」和「摸」才能干活，但这次的研究告诉我们：有时候，让机器人好好「感受自己」，就足够了。就像人类不用看自己的手指，也能系鞋带、弹钢琴——这种本体感知的智慧，才是灵巧操作的核心。

未来的机器人，可能不会再顶着一堆摄像头，也不会在手上贴满传感器。它会像我们一样，仅凭关节的细微颤动，就知道手里的东西是什么，该怎么动。

关节动一动，世界尽在掌握。

从关节数据里「读」出物体的影子

几块钱的传感器，比视觉还靠谱

不是万能药，但打开了新大门

评论