对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
NAVDREAM基准|分布外泛化|视觉脆弱性|浙江大学|恒定之眼方案|自动驾驶|人工智能
一辆自动驾驶汽车,在加州阳光明媚的街道上如经验丰富的老手,一旦被置于北京滂沱的雨夜,瞬间变为不知所措的新手。熟悉的物理世界在传感器中化为一片光怪陆离的反射与模糊,人工智能陷入了“失明”状态。这并非规划逻辑的崩溃,而是一场深刻的感知危机。
这场危机引出一个长久困扰业界的谜题:当自动驾驶系统在陌生环境下失效时,究竟是“路痴”(无法理解新城市的复杂几何结构),还是“近视”(无法看清恶劣天气下的景象)?这个问题,即分布外(Out-of-Distribution, OOD)泛化难题,一直是悬在自动驾驶安全之上的“达摩克利斯之剑”。
要对症下药,必先精准诊断。浙江大学的研究团队首先锻造了一把前所未有的“手术刀”——NAVDREAM基准。他们意识到,过去的研究将“几何变化”(如城市布局差异)与“外观变化”(如天气、光照)混为一谈,导致无法定位失败的根源。
NAVDREAM的核心思想是**“控制变量”**。研究团队利用强大的生成模型Flux,对真实的NAVSIM驾驶数据集进行了“像素级对齐的风格迁移”。这意味着,对于同一个驾驶场景——同样的道路、车辆、行人位置——他们创造出了十种不同的“皮肤”:暴雨、大雪、晨雾、夕阳,甚至复古滤镜和动态模糊。

如此一来,任何模型在该基准上的性能下滑,原因将有且仅有一个:其视觉系统无法抵御纯粹的外观变化。这把手术刀精准地剔除了所有几何干扰,直指自动驾驶的“视觉脆弱性”这一阿喀琉斯之踵。
面对这场纯粹的视觉“压力测试”,浙大团队的解法出人意料地简洁而深刻。他们没有设计更复杂的网络,而是为自动驾驶系统安装了一双**“恒定之眼”(The Constant Eye)**。
这双“眼睛”并非全新研发,而是巧妙地“借用”了Meta AI开源的视觉基础模型DINOv3。DINOv3通过在海量图像上进行自监督学习,获得了一种独特的能力:它能“看透”表象,提取出物体和场景背后稳定不变的结构与语义特征,而对光照、色彩等易变的外观信息相对不敏感。
更关键的是,这双“眼睛”是**“冻结”**的。在训练下游的规划模型时,DINOv3的参数被完全锁定,纹丝不动。这一设计堪称神来之笔,它强制规划器必须学会依赖DINOv3提供的那些稳定、本质的几何特征来进行决策,而不能“偷懒”地去学习和记忆那些变幻莫测的像素级线索。这无异于为自动驾驶戴上了一副“透过现象看本质”的眼镜,从根本上重塑了它的感知范式。
“恒定之眼”的通用性有多强?团队将其无缝接入了当前主流的三大端到端规划范式:回归式(LTF)、扩散式(DiffusionDrive)和评分式(GTRS-Dense)。
实验结果极具说服力:

更令人惊喜的是,在正常的真实驾驶数据集(navtest/navhard)上,“恒定之眼”方案的性能非但没有牺牲,反而普遍优于或持平原始模型。这证明DINOv3提供的特征本身就更优质、信息量更丰富。
定性分析的画面更为直观:在模拟的暴风雪场景中,原始模型规划的轨迹径直冲向路缘石;而搭载“恒定之眼”的车辆则稳如泰山,精准地保持在车道内。一个“即插即用”的冻结模型,竟带来了如此根本性的改变。
为了探究“恒定之眼”为何如此有效,研究者通过特征可视化,让我们得以“看见”模型所见。
当同一场景的不同外观图像输入传统视觉模型(VoVNet)时,其输出的特征图随着天气变化而剧烈波动,支离破碎。然而,输入DINOv3后,输出的特征图宛如一系列精准的工程蓝图,无论外界是晴是雨,都清晰、稳定地勾勒出道路边界、车辆轮廓等核心几何结构。

这雄辩地证明了“恒定之眼”的工作原理:它为下游的规划大脑提供了一个高维、稳定且富含语义的场景表示,使其得以从与像素外观的无尽搏斗中解放出来,专注于基于不变的物理世界本质进行推理。
当然,“恒定之眼”并非终点。目前的研究主要在开环环境中进行评估,即模型根据历史帧预测未来,而不与环境进行实时交互。清华大学崔鹏教授指出,提升分布外泛化能力是自动驾驶安全的核心,而真正的挑战在于找到现实世界中更广泛的“不变性”。
未来的关键考验,是将这种鲁棒性延伸到更复杂的闭环仿真乃至真实道路测试中。正如Waymo在暴雨中积累数十万英里测试数据,或特斯拉坚持纯视觉路线并不断迭代算法,行业正在多路径探索极端环境下的感知难题。
此外,将“恒定之眼”的外观不变视觉特征,与激光雷达(LiDAR)等不受天气影响的多模态传感器提供的精确3D几何信息进行深度融合,构建一个更强大、更全面的环境感知系统,将是通往完全自动驾驶的必由之路。
尽管如此,浙江大学的这项工作为行业提供了一个清晰、普适且极具启发性的新范式。它深刻地启示我们:在人工智能的浪潮中,解决一个棘手问题,有时并不需要创造更庞大的模型,而是需要一种智慧——巧妙地“借用”一个已经存在的、强大的基础能力,并将其作为一个不可动摇的“锚点”。这或许是通往更鲁棒、更安全的人工智能系统的一条更优雅的捷径。