大模型上车，规划算法要失业吗？

不会。大模型会上车，但规划算法不会下车——它会转岗成“大模型的安全护栏”。原因很现实：车端对规划-控制回路的时延与确定性有硬性约束（通常20–50ms更新、抖动可控），对轨迹的物理可行性与约束可验证性有法规要求（如功能安全与SOTIF），而端到端生成往往存在不确定时延与不可解释性，单独上路难以通过安全论证。更可能的范式是“学＋算”协同：大模型负责提出意图、代价或多样候选轨迹，规划器用MPC/CBF/可达性分析把关硬约束、解耦冲突并平滑控制；运行时由安全笼实时重写或裁剪大模型输出。值得注意的是，像Curious-VLA显示的Best-of-N显著增益，恰说明“多样性生成＋可行性筛选”有效——而筛选与约束优化正是规划器的主场。落地层面也在朝这个方向演进：高频闭环仍由经典控制与轨迹优化维持稳定性与舒适度，大模型提供更聪明的目标与评分；工程师从手写规则，转为学习代价函数、设计安全盾与做形式化验证。岗位不消失，只是技能栈升级。

AI学人开车，反被“教笨”了？

“教笨”确实发生了，但锅在“老师”。把多解的驾驶问题用单条人类轨迹做SFT，会把策略熵压到几乎零；等RL接手，采样轨迹回报差不多，优势函数发不出力，跟文本里RLHF后“千篇一律”的塌缩是同一种病。解法不在“更猛的RL”，而在把“多解”与“安全”同时放进训练回路：数据侧引入多司机/多回放等价轨迹，仿真对人类轨迹做小扰动再用安全评分过筛；算法侧用多假设监督与逐步归一化抑制远期主导，配合最大熵/保守离线RL维持策略支撑集，再用多样性感知采样与跨度奖励把优势方差撑起来；上线侧用安全屏蔽（如控制障碍函数/规则卫士）约束探索边界。更远一步，把世界模型联训进来、把指标改成“多样性一等公民”。别只盯均值PDMS，看Best-of-N、长尾命中率、闭环干预率与策略熵的关联。若模型变大而多样性下滑，就是新一轮“教笨”预警。能把多样性稳住，VLA的Scaling红利才不会在起跑线被锁死。

自动驾驶会“犹豫”，是好是坏？

“犹豫”本质上是自动驾驶在不确定下的自保机制：看不清、没把握，就先慢下来或等一等。早期这反而是好事，能把高能量事故换成低强度的刹停与绕行。但当犹豫变成常态——绿灯不走、小间隙不并、路口反复探——效率骤降、后车追尾风险上升，人机流混行也会因此更“顶牛”。它为何会犹豫？一是感知与意图预测的不确定，二是训练目标过于“单一正确”的模仿学习导致策略变窄，只会一种“稳妥但拖沓”的行为；时间尺度失衡还让近端控制学得不够细，出现碎片化的点刹与停滞。要把“坏犹豫”变“好克制”，关键在两点：让模型敢于探索多种可行轨迹（如扩展可行轨迹、按多样性自适应采样、放大奖励对优质策略的区分），同时把不确定显式纳入规划，学会人类式“合规果断”的间隙接受与交互礼让。可控的犹豫是安全垫，持续的犹豫是性能债。最终看它能否随经验与场景，把犹豫收敛为可解释、可预期的让行与决断。

新知 - 大圆镜｜自动驾驶AI只会一种开法？Curious-VLA打破策略囚笼

大圆镜

内容由AI生成，思考得你完成

App Store 下载 Android 下载

策略塌缩：AI司机的“路径依赖”病

你可以把自动驾驶VLA模型的训练想象成学开车：如果教练只让你练一种固定路线，哪怕练一万次，遇到突发情况你还是会慌。当前主流VLA模型就是这么学的——在模仿学习阶段，它们被要求精准复刻人类司机的某一条轨迹，把“和示范轨迹一模一样”当成唯一目标。

这种训练逻辑的问题在于，真实驾驶根本没有“标准答案”。同一个路口，早0.5秒刹车和晚0.5秒刹车都是安全的；同一段拥堵路，跟紧前车和保持车距都是合理的。但模仿学习会把这些多样的选择全部当成“错误答案”，逼着模型收敛到一条狭窄的策略上。

更糟的是，训练时模型会自动优先拟合远期轨迹的误差——就像学开车时只盯着远方的路牌，却忘了脚下的油门和刹车。这导致模型对近距离的关键操作细节完全麻木，策略空间被压缩到极致。等进入强化学习阶段，模型已经只会生成几乎完全相同的轨迹，奖励样本的方差趋近于零，就像给一个只会走直线的人发方向舵，强化学习彻底失去了优化的空间。

Curious-VLA：给AI司机开“多样性补习班”

Curious-VLA的解决思路直接瞄准了问题根源：先给模型看够多样的“正确答案”，再逼着它主动探索新的可能。

第一步是给训练数据“扩容”。研究团队从Navsim数据集里挑出1.2万段最复杂的驾驶场景——比如多车道汇流、遮挡路口，用扩散模型生成上百条符合交通规则的安全轨迹，再通过PDMS安全评分过滤，最终把训练数据从10万条扩展到14.2万条。相当于给学开车的人看100个老司机过同一个路口的不同操作，而不是只看一个人的。

但光有多样数据还不够，模型还是会盯着远期轨迹忽略细节。于是他们又加了“分步归一化”：把每一个时间步的轨迹坐标单独做标准化处理，让远近轨迹的误差权重变得均衡。就像练开车时，教练既要求你看远方，也逼你盯着仪表盘和前车距离，确保你学到的是完整的驾驶技能，而不是只会画轨迹。

到了强化学习阶段，Curious-VLA又搞了个“聪明采样”：只挑那些能产生多样策略的场景来训练。比如一个空旷的直路，模型怎么开都不会有差异，就直接跳过；但到了人车混行的路口，模型的不同选择会带来完全不同的奖励，就反复练这个场景。同时把奖励函数做了非线性变换，放大好策略和普通策略的差异——就像教练给平稳通过的打100分，给勉强通过的打60分，而不是都给80分，让模型清楚知道什么是真正的好操作。

从实验室到马路：探索能力才是安全关键

实验结果给出了最直接的证明：在Navsim基准测试中，Curious-VLA的PDMS得分达到90.3，比之前的SOTA模型提升了1.2分；在nuScenes数据集上，碰撞率降到0.33%，安全性能提升了13%。更惊人的是“Best-of-N”测试——从模型生成的多条轨迹里选最优的，Curious-VLA的得分达到了94.8，和人类司机的轨迹得分完全持平。

这意味着，当AI能生成多样的驾驶策略时，它其实已经具备了接近人类的决策能力。Waymo的公开数据也印证了这一点：他们的多模型并行策略，让自动驾驶车辆在模拟测试中应对突发情况的成功率提升了15%。而2023年的一项安全评估显示，缺乏多样性训练的模型，面对非典型交通事件的事故率比平均水平高出30%以上。

更值得关注的是，Curious-VLA完全抛弃了传统VLA模型外挂的规划模块，只靠多模态大模型的自回归能力就实现了SOTA性能。这不仅简化了系统结构，更意味着它能充分利用大模型的规模效应——模型越大，探索能力越强，性能提升的天花板被彻底打开了。

当我们谈论自动驾驶的未来时，总在说“更安全”“更智能”，但往往忽略了，智能的核心不是“做对题”，而是“会选路”。Curious-VLA的突破，本质上是把AI从“考试机器”变回了“司机”——它不再只会复刻标准答案，而是能像人类一样，在复杂多变的道路上，做出多样而合理的选择。

多样性，才是自动驾驶的安全底色。未来的自动驾驶AI，不该是只会走一条路的“乖学生”，而该是能应对各种路况的“老司机”。Curious-VLA的出现，只是这个转变的开始。

策略塌缩：AI司机的“路径依赖”病

Curious-VLA：给AI司机开“多样性补习班”

从实验室到马路：探索能力才是安全关键

评论