机器人眼中的世界该多“糊”？

该“糊”到只保留决策的最小充分统计量：物体实例、相对位姿、可达/可接触区域及其变化率；又要“清”到足以支撑接触判定与安全约束。把像素换成结构化几何——语义/实例掩码为骨架，辅以粗深度、光流或接触可供性——用信息瓶颈压掉与回报无关的互信息，让表示更短、更稳、更抗噪。但“糊度”应是时空自适应的。长时序阶段用类别/实例掩码+稀疏深度即可；临近抓取与碰撞前，再局部“提清晰度”，引入法线、稠密深度或小范围3D体素；遇到透明、反光、可变形体，叠加触觉或双目补几何不确定。怎么判度？看两条曲线：闭环频率与泛化差分。对光照/纹理一变就掉线，说明过清；一换形状就失手，说明过糊。以“外观扰动 vs 几何扰动”的成功率差作表计，配合令牌裁剪、分辨率退火和接触前后分级感知，把“糊”自动调到恰到好处。

为何丢掉细节的机器人更聪明？

因为“聪明”本质上是用最少的信息做最对的决策。丢掉细节就是施加信息瓶颈，把观测压成与控制因果相关的充分统计。按强化学习里的同仿度原则，只要能正确预测奖励与转移，外观差异都应被折叠进同一状态类。语义掩码与几何特征更接近这种等价类，策略因此对光照、纹理、颜色天生不敏感。从优化与控制看，剔除无关细节等于缩小假设空间，减少过拟合；观测噪声下降后，模型滚动预测误差不再层层放大，长视野规划更稳。几何表示对位姿扰动近似不变，信号更干净，策略梯度方差更小，训练更快也更可靠。这不是“看得少”，而是“看得准”。当然，聪明不等于失明：凡是参与因果的细节（如液面高度、材质导致的摩擦差异）应以结构化通道保留（掩码+深度/法线/材质）。真正的聪明，是把“会变且无关”的外观当噪声，把“决定后果”的因素纳入状态，其余一概剔除。

只看轮廓的AI能懂生活吗？

能把手练稳，但还谈不上“懂生活”。只看轮廓擅长回答“在哪里、啥形状、怎么动”，却绕过了“什么材质、写了啥字、热不热、别人表情在说啥”。同一轮廓的香蕉可能生熟不同；纸杯与金属杯用力策略截然相反；透明液体的液面、油污的滑腻、火焰或红绿灯的颜色——轮廓都说不清。落到任务上，几何导向的策略在抓取与摆放很强，一到倒水、拧盖、叠衣、读标签就掉链子。实操经验表明，引入力/触觉与关节扭矩、音频“听”液位、重量与温度，外加OCR和材质识别，能显著降错。这些外观与多模态信号，正承载着“生活性”的关键细节与风险提示。答案因此不是“只看轮廓”，而是“以轮廓为骨、以外观与常识为肉”。用几何瓶颈稳住控制与泛化，在需感知材质/文字/颜色时按任务唤醒对应通道，并与触觉、声音乃至社交线索对齐到同一世界模型。轮廓教会手怎么稳，生活还要耳朵、鼻子和人情味。

新知 - 大圆镜｜机器人终于学会：只看对干活有用的信息

对抗知识焦虑，从看懂这条开始

App 下载

别死磕像素了，去预测“骨架”吧

过去让机器人学干活，流行先教它“脑补未来”：给它看当前画面和要做的动作，让它预测接下来的RGB视频帧，越逼真越好。这就像让学生做数学题，却逼着他把字写得像印刷体——精力全花在无关细节上，换个作业本就不会做题了。RGB像素里藏着太多干扰：光照变了，杯子在模型眼里就“变了个东西”；背景桌布换了，它甚至找不到杯子在哪。

新方法叫掩码世界模型，核心思路简单到离谱：别让机器人预测完整画面了，让它预测“语义掩码”——就是把画面里的物体（杯子、桌子、机械臂）用不同色块标出来的“轮廓图”。这相当于给机器人的视觉系统加了个几何信息瓶颈：它只能看到物体的位置、形状和相互关系，颜色、纹理、光影这些干扰项，从目标里直接消失了。

两阶段训练：先懂规律，再学动作

这个模型的训练像考驾照，分两步走，稳扎稳打。

第一阶段是学“物理规律”：给机器人看过去几帧的画面和任务指令，让它预测未来几帧的语义掩码会怎么变。比如拿杯子的动作，它要学会预测“杯子的色块会向机械臂移动，最终和机械臂的色块重叠”。这里用了扩散模型技术，让模型能像搭积木一样，从噪声里生成准确的未来掩码。更聪明的是，训练时用的掩码标注只需要离线做好，实际干活时机器人只需要看原始RGB画面，完全不用额外装实时分割模型，落地成本一下降了下来。

第二阶段是学“怎么动”：冻结第一阶段训练好的视觉特征提取部分，只训练动作生成模块。这时候模型会根据掩码预测出的“物体运动规律”，直接生成机械臂的动作。而且训练时只用动作是否准确的信号反向调整，让模型的所有注意力都集中在“怎么动才能完成任务”上。

直给的逻辑链是：用掩码过滤干扰→学懂物体运动规律→生成精准动作。

实测：换环境、缺信息，照样干活

道理说破天，不如看实测数据。在LIBERO和RLBench两个主流机器人仿真测试集上，这个模型的平均成功率分别达到98.3%和68.3%，比之前最好的RGB模型高出2到10个百分点。

更狠的是真实机器人测试：在Franka机械臂上做倒水、开抽屉这些精细活，只用50条演示数据训练，这个模型的平均成功率是67.5%，而传统RGB模型只有23.8%。就算故意给它制造麻烦——换桌布、调亮度、用没见过颜色的杯子，它的成功率依然能保持在42.1%，而传统模型几乎直接失效。

甚至做“随机挖掉一半画面”的极端测试，它的表现也比RGB模型稳定得多——因为它关注的是物体的整体几何关系，哪怕少了几块像素，剩下的信息也足够推断出该怎么动。

更值得关注的是，这不是某个小技巧的优化，而是从目标上改变了机器人的学习逻辑：过去是“看清楚所有细节”，现在是“只看对干活有用的”。这恰恰戳中了当前机器人学习的核心痛点：我们总在追求模型“看的更清楚”，却忘了让它“知道该看什么”。

这个研究最有意思的地方，是它暗合了人类的认知逻辑：我们看世界时，也会自动过滤掉无关细节——比如拿杯子时，不会去注意杯身上的花纹，只会关注它的位置和形状。机器人终于开始像人一样“抓重点”了，而不是像个只会死记硬背的机器。

未来的机器人，可能不需要“看”得和人一样清楚，但一定会“理解”得和人一样精准。专注本质，才是机器人变聪明的真正捷径。

别死磕像素了，去预测“骨架”吧

两阶段训练：先懂规律，再学动作

实测：换环境、缺信息，照样干活

评论