AI的“深度感”，是看见了还是算到了？

更接近“算到了”，但不等于瞎猜。像 Evo-Depth 这类做法不去显式重建点云或深度图，而是用多视角的几何线索（视差、遮挡、透视）和预训练，把与深度强相关的模式压进特征里。这种“隐式深度”足以指导抓取与避障，却未必对应可校准的米制深度；它更像把几何直觉揉进策略网络，在实时性与算力预算内换取可用的空间感。要分辨是“看见了”还是“算到了”，看它经不经得起干预：换焦距/基线或轻微外参扰动，动作精度仍稳定；目标位置与遮挡大改，仍保持正确的前后/接触次序；与真深度的排序相关性持续为正。如果这些都挺住，说明模型真正利用了几何；若一遇视角、初始位姿或布局变化就掉线，那多半还是“记忆式计算”。在资源受限的机器人上，这条隐式路线性价比高，但最好用传感冗余与针对性评测兜底。

机器人有了立体感，先学会穿针还是倒水？

先倒水，再穿针。倒水的空间容差大一个量级：杯口对位厘米级就够，用立体感估计容器姿态与液面，再辅以手腕IMU与倾倒声学特征，10–20Hz的控制环就能稳定执行，实测场景里成功率已能做到九成以上。穿针则要在针眼约1–2mm、线径0.3–0.5mm条件下，把末端位姿误差压到<0.2–0.3mm、姿态<1°，还要抗自遮挡，单靠隐式深度在近距的毫米级噪声就吃不消。要跨过“穿针”这道坎，立体感只是底座，还得补三样：眼在手上的微距高速视觉（10cm内亚像素）、高频触觉/力控（<0.1N分辨率，100–500Hz闭环）、对柔性线材的视觉伺服与顺应控制。等这些上线，穿针才会从“赌运气”变成“可复现”。

透明玻璃杯，会是机器人的“滑铁卢”吗？

不会再是“滑铁卢”，但也还称不上“送分题”。近年的深度补全与隐式几何建模把透明材质的缺失深度补成可用几何，叠加轻量VLA把空间感写进策略里，实机已能稳定定位杯身、杯沿与把手，而且多在现有RGB-D硬件上即可落地。胜负关键转向“看得见还要抓得好”。实操中，用主动视角切换与不确定性估计先控风险；策略上优先抓杯沿/把手、避开强反射区，末端执行器配顺应、力控与滑移检测闭环，必要时改用吸附；上线前做预抓射线与碰撞校验、失败回退。余下硬仗在于湿滑与冷凝引发的失稳、杯中液体致质心漂移，以及强逆光下的残余假深度。结论：透明杯不再是天堑，但要把成功率打磨到“可托付”，必须同时把感知增强、闭环控制与端效器策略三件事做好。

新知 - 大圆镜｜给机器人装“隐形眼睛”，0.9B参数搞定精细操作

对抗知识焦虑，从看懂这条开始

App 下载

关于大圆镜

大圆镜（dyj.live）·中文科普知识平台。1000+ 顶级一手科学信源（arXiv / Nature / Cell / DeepMind / 中科院等五层体系），每日精选 200+ 条世界级科学新知，AI 锐评 + 人工把关 + 完整证据链。

大圆镜是什么？

大圆镜（dyj.live）是中文科普知识平台，提供最新鲜的、可循证的硬核知识。以 1000+ 顶级一手科学信源（arXiv / Nature / Cell / DeepMind / 中科院等五层体系）为根基，每天精选 200+ 条世界级科学新知，AI 编辑流水线 + 人工把关完成锐评、深度解读、脉络梳理与真理追问。

大圆镜的内容跟其他科技媒体有什么不同？

不做二手搬运。每条都可追溯到原始一手信源（学术论文、机构发布、实验室博客），文末附 3-50+ 个学术 / 媒体 / 百科信源含发表年份与被引数。每条均经「信源权威度 + 新颖性 + 跨源验证 + 公众可读」多维评分入库。

大圆镜覆盖哪些学科？

全科普谱系，10 大领域：人工智能与计算、生命科学与医学、脑科学与认知、量子物理与天体物理、化学与材料、天文与空间、地球与环境、数学与统计、能源与工程、经济与社会。关键词含大语言模型、基因编辑、聚变能源、脑机接口、量子计算、商业航天、AlphaFold、CRISPR 等。

大圆镜接入了哪些信源？

1000+ 顶级一手信源，分五层：L1 预印本（arXiv / bioRxiv / medRxiv 等约 2,500 篇/日）、L2 顶级期刊（Nature / Science / Cell / NEJM / PNAS 等约 95 刊）、L3 机构 PR（NASA / NIH / 中科院 / MIT 等约 120 家）、L4 产业实验室（OpenAI / DeepMind / DeepSeek 等约 45 家）、L5 同业策展（Quanta / 量子位 / 机器之心等约 45 家）。

大圆镜的内容是 AI 生成的吗？

是 AI 编辑流水线 + 人工把关的工业化产线。AI 负责信源监控、标题生成、锐评撰写、多维评分；人工负责上线前的复审、阈值调整、质量持续迭代。所有信源、数据、引用均可溯源，不编造事实。

大圆镜有哪些产品模块？

七大产品矩阵：① 新知（个性化深度信息流，Web + App）② 灵镜岛（知识图谱式学习模块，App 端深度体验）③ 镜界（经认证科学家共建社区，App 端深度体验）④ 新知电报（分钟级科学进展快讯 + 突破性进展推送，App 端深度体验）⑤ 镜选（充电热榜，用户共创选题）⑥ 镜选片场（≥ 100 充电的待制作选题流水线）⑦ 视频（400 万粉「大圆镜科普」账号 IP 系列 + App 独家彩蛋）。

灵镜岛是什么？跟刷文章有什么差别？

灵镜岛是大圆镜 App 内的知识图谱学习模块。把每天产出的科学新知按「概念节点 + 关系边」织成认知地图，支持从入门概念到学术原文的多层级跳读。区别于「刷文章只看碎片」，灵镜岛让用户系统性掌握一个学科。

镜界是什么？里面的科学家是真实的吗？

镜界是大圆镜 App 内的科学家共建讨论社区（类似微信读书的「书友」模块）。采用实名认证制，目前认证身份为高校教师与机构研究员（蓝标），每位档案含所属机构、研究方向、代表论文。社区围绕大圆镜每日新知展开讨论 —— 读者可一键把新知文章里的精彩评论分享到镜界发起更广对话。

大圆镜的「充电」是什么？怎么影响内容生产？

「充电」是 App 内的支持机制（相当于「投票 + 关注」）。读者给镜选热榜的选题充电，累计达到 100 票即进入镜选片场（待制作流水线），按票数高低依次进入大圆镜制作排期。整个过程对所有读者透明可见，可追踪选题从充电到上线的每一步。

「大圆镜科普」视频账号是什么？《大脑简史》等 IP 在哪看？

「大圆镜科普」是大圆镜旗下视频科普账号，全网粉丝 400 万+，运营七大科普 IP 系列：《大脑简史》《生命科学简史》《人工智能简史》《古生物简史》《瘟疫简史》《成瘾简史》《未解之谜》。日常视频在 B 站、抖音、小红书、百家号等平台发布；大圆镜 App 内同步全集，并独家提供彩蛋内容、配套图片壁纸、BGM 素材、视频对应的文字版深度解读。

想象一下：你让机器人“把最里面那个杯子拿出来”，它却伸手碰倒了外面的罐头——不是听不懂指令，是它看不见杯子和罐头的前后关系。这正是当下具身智能的尴尬：能看懂二维画面、听懂人话，却对真实世界的“空间”一知半解。

上海交大团队刚开源的Evo-Depth，用0.9B参数的轻量模型，让机器人仅凭普通摄像头的多视角画面，就学会了感知空间深度。它在仿真和真机测试里的精细操作成功率最高冲到95.4%，GPU显存只占3.2GB，每秒能跑12.3次推理——没加昂贵的3D传感器，却补上了最关键的空间短板。

它是怎么做到的？

不用3D传感器，从RGB里“抠”出深度

要让机器人懂空间，过去只有两条路：要么装激光雷达、深度摄像头这类3D传感器，成本高还容易受环境干扰；要么用大模型从二维图像里硬学3D信息，算力开销大到没法在真实机器人上部署。

Evo-Depth选了第三条路：给普通RGB图像装个“隐形深度解码器”——也就是它的核心模块IDEM（隐式深度编码模块）。你可以把这个模块想象成一群会“脑补”的画师：给它几张从不同角度拍的桌面照片，它不会直接画出每张图的深度，而是提炼出物体的相对位置、前后遮挡这些关键空间关系，打包成一套紧凑的“空间密码”。

这个模块只有0.13B参数，还提前用海量多视角图像做了预训练，相当于先学会了“看东西的立体逻辑”。它不用生成完整的3D点云或深度图，只输出最关键的空间特征，把计算量压缩到了极致。

给视觉语言模型“加个空间滤镜”

光有深度信息还不够，得让机器人的“大脑”——也就是视觉语言动作模型（VLA）——能用上这些信息。如果直接给VLA加个独立的深度分支，就像给电脑装了个不兼容的新硬件，不仅拖慢速度，还可能让原有的语义理解能力混乱。

Evo-Depth的解决办法是设计了一个轻量的空间增强模块（SEM）：它把IDEM生成的“空间密码”当成一种“调制信号”，就像给普通照片加了个能突出层次的滤镜，不改变原有视觉语言模型的语义理解能力，只是在处理信息时悄悄强化空间特征。比如看到“把书放在盒子上面”，模型会自动把“上面”这个抽象指令，和IDEM感知到的盒子与书的高度差对应起来。

为了让这两个模块和原有VLA模型配合默契，团队还用了渐进式对齐训练：先让SEM和VLA模型“熟悉”彼此的语言，再加入IDEM的深度信息，最后全模型联合微调。就像教两个人跳舞，先各自练熟动作，再合排，最后调整细节，避免了直接组队的混乱。

既要性能，也要能落地

实验室里的模型好用不算真的好用，能在真实机器人上跑起来才是关键。Evo-Depth在四个主流仿真基准测试里的表现都超过了传统VLA模型：Meta-World任务成功率84.4%，LIBERO更是达到95.4%；在真实机器人的精细操作测试里，平均成功率也冲到了90%。

更重要的是它的部署效率：0.9B的总参数只有很多大VLA模型的十分之一，GPU显存占用3.2GB，推理频率12.3Hz——这意味着它能在普通的机器人边缘计算设备上实时运行，不用依赖云端算力。

当然，它也有局限：目前对快速移动的动态物体，空间感知精度还会下降；对极端光照下的图像，深度提取的鲁棒性也有待提升。但相比其他方案，它已经找到了性能和落地成本的最佳平衡点。

过去我们总觉得，机器人要变聪明，就得堆参数、加硬件。但Evo-Depth给了另一种思路：与其追求“全知全能”，不如精准补上最关键的短板。

它就像给机器人装了一双“隐形的立体眼睛”，不用额外的硬件负担，却让机器人第一次真正“看懂”了三维世界的空间逻辑。轻量才是具身智能落地的密钥。未来的机器人，或许不用最强大的芯片，却能凭着对空间的精准感知，在真实世界里完成越来越多精细的任务。