对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
精细操作|多视角摄像头|空间深度感知|上海交大团队|Evo-Depth|具身智能|人工智能
想象一下:你让机器人“把最里面那个杯子拿出来”,它却伸手碰倒了外面的罐头——不是听不懂指令,是它看不见杯子和罐头的前后关系。这正是当下具身智能的尴尬:能看懂二维画面、听懂人话,却对真实世界的“空间”一知半解。
上海交大团队刚开源的Evo-Depth,用0.9B参数的轻量模型,让机器人仅凭普通摄像头的多视角画面,就学会了感知空间深度。它在仿真和真机测试里的精细操作成功率最高冲到95.4%,GPU显存只占3.2GB,每秒能跑12.3次推理——没加昂贵的3D传感器,却补上了最关键的空间短板。

它是怎么做到的?
要让机器人懂空间,过去只有两条路:要么装激光雷达、深度摄像头这类3D传感器,成本高还容易受环境干扰;要么用大模型从二维图像里硬学3D信息,算力开销大到没法在真实机器人上部署。
Evo-Depth选了第三条路:给普通RGB图像装个“隐形深度解码器”——也就是它的核心模块IDEM(隐式深度编码模块)。你可以把这个模块想象成一群会“脑补”的画师:给它几张从不同角度拍的桌面照片,它不会直接画出每张图的深度,而是提炼出物体的相对位置、前后遮挡这些关键空间关系,打包成一套紧凑的“空间密码”。
这个模块只有0.13B参数,还提前用海量多视角图像做了预训练,相当于先学会了“看东西的立体逻辑”。它不用生成完整的3D点云或深度图,只输出最关键的空间特征,把计算量压缩到了极致。
光有深度信息还不够,得让机器人的“大脑”——也就是视觉语言动作模型(VLA)——能用上这些信息。如果直接给VLA加个独立的深度分支,就像给电脑装了个不兼容的新硬件,不仅拖慢速度,还可能让原有的语义理解能力混乱。
Evo-Depth的解决办法是设计了一个轻量的空间增强模块(SEM):它把IDEM生成的“空间密码”当成一种“调制信号”,就像给普通照片加了个能突出层次的滤镜,不改变原有视觉语言模型的语义理解能力,只是在处理信息时悄悄强化空间特征。比如看到“把书放在盒子上面”,模型会自动把“上面”这个抽象指令,和IDEM感知到的盒子与书的高度差对应起来。
为了让这两个模块和原有VLA模型配合默契,团队还用了渐进式对齐训练:先让SEM和VLA模型“熟悉”彼此的语言,再加入IDEM的深度信息,最后全模型联合微调。就像教两个人跳舞,先各自练熟动作,再合排,最后调整细节,避免了直接组队的混乱。

实验室里的模型好用不算真的好用,能在真实机器人上跑起来才是关键。Evo-Depth在四个主流仿真基准测试里的表现都超过了传统VLA模型:Meta-World任务成功率84.4%,LIBERO更是达到95.4%;在真实机器人的精细操作测试里,平均成功率也冲到了90%。
更重要的是它的部署效率:0.9B的总参数只有很多大VLA模型的十分之一,GPU显存占用3.2GB,推理频率12.3Hz——这意味着它能在普通的机器人边缘计算设备上实时运行,不用依赖云端算力。
当然,它也有局限:目前对快速移动的动态物体,空间感知精度还会下降;对极端光照下的图像,深度提取的鲁棒性也有待提升。但相比其他方案,它已经找到了性能和落地成本的最佳平衡点。
过去我们总觉得,机器人要变聪明,就得堆参数、加硬件。但Evo-Depth给了另一种思路:与其追求“全知全能”,不如精准补上最关键的短板。
它就像给机器人装了一双“隐形的立体眼睛”,不用额外的硬件负担,却让机器人第一次真正“看懂”了三维世界的空间逻辑。轻量才是具身智能落地的密钥。未来的机器人,或许不用最强大的芯片,却能凭着对空间的精准感知,在真实世界里完成越来越多精细的任务。