无人车的道德观，该由谁编程？

答案不是“工程师或老板拍板”，而是分层共编：政府与标准先定不可协商的伦理底线，企业在边界内实现。具体做法已成型——UNECE的自动车法规要求最小风险状态与行驶数据留存（DSSAD/EDR），ISO 26262/21448与UL 4600把“安全优先、可验证”落成条款；英国2024《自动驾驶法》把法律责任指向“获授权自驾实体”，欧盟AI法与美国监管将ADS列高风险，前置了合规审查。在此之上，主机厂/供应商负责编码与标定，运营方按ODD设策略，监管用审批与事故取证约束自由度。公司内部应有算法治理委员会与红队测试，强制决策日志以便事后审计。决策准则并非“电车难题优化”，而是可验证的保底策略：优先制动直行、最小化总伤害、不得按个人特征加权。Moral Machine超四千万次选择显示文化分歧明显，若放任消费者挑“道德套餐”将致不公与监管失效，合理的个性化只应限于非伦理参数（如舒适/谨慎度）。

AI开车，更像人还是更像神？

更像“有原则的人”，但配了几项“超人”外挂。像CLOVER这类闭环规划，让车先想出一簇可能的未来，再按安全、效率、舒适的价值函数做取舍——这更接近经验老司机的权衡过程。与人不同的是，车的感知更广（多传感器360°覆盖、百米级探测）、反应更快（推理约百毫秒），还能稳定执行同一套价值标准，不受情绪与疲劳摆动。它还不是“神”。评估指标与真实道路仍有错位，长尾互动、极端天气、临时改道都可能让“好候选更容易被选中”的富集条件失效；对高精地图与占用预测的依赖，也让无图、弱感知场景成为软肋。可行的进化路径，是把“像神的感知与反应”与“像人的价值取舍”捆绑，用影子驾驶、对抗流量和在线校准持续修正，最终逼近“群体理性司机”，而非全知全能。

当所有车都绝对理性，路会更堵吗？

不必然更堵。在线性路段、无明显瓶颈时，绝对理性+车车协同能把车头时距从人驾约1.6–2.0秒压到0.6–0.8秒（编队可至0.3–0.5秒），微小占比的自动驾驶也能抚平“幽灵堵”。在未触顶容量前，这种稳定化会显著减少拥塞与能耗波动。但一到需求逼近瓶颈，堵仍会出现，而且“更理性”未必“更畅通”。路网层面自私均衡会触发路径拥挤与Braess效应：人人选最短路，整体更慢；若控制策略偏保守（更大时距、舒适优先），混行阶段甚至可能压低通行能力。合流、信号交叉口、行人干扰等硬约束依旧主导排队长度。结论是：只把人换成完美理性的车、各走各的，拥堵未必消失；当且仅当把个体理性升级为系统协同——集中配流、速度-信号联控、编队通行与预约式路口——同样的道路才可能在高需求下依旧保持更低延误。

新知 - 大圆镜｜自动驾驶终于解决了练得好却考砸的难题

对抗知识焦虑，从看懂这条开始

App 下载

练考脱节：自动驾驶的核心悖论

你可以把传统自动驾驶规划模型理解成一个只会死记硬背的考生：训练时，它的唯一目标是「和人类司机的轨迹一模一样」，就像照着教练的路线反复练习，把每一个转向、加速的时机都刻进参数里。但真正上路时，评判它的是一套叫PDMS的「考官规则」——要算有没有碰撞风险、会不会压车道线、加速够不够平稳，甚至还要看能不能高效抵达目的地。

这就形成了一个无解的悖论：跟着人类轨迹走，可能因为稍微偏离车道就丢分；而一条更安全的路线，却因为和人类轨迹差距大，在训练时会被当成错误答案修正。更糟的是，这类模型往往只会生成和人类轨迹类似的路线，遇到突发情况时，连备选方案都没有。比如在狭窄路段遇到违停车辆，人类司机会选择减速绕行或者停车等待，但模型可能只会死死盯着人类的「示范路线」，一头撞上去。

CLOVER：让考生和考官站在同一阵线

CLOVER的核心思路说起来很简单：既然练和考的标准不一样，那就让「考生」（生成器）和「考官」（评分器）通过真实路况的反馈形成闭环，一起进步。

它的训练分两步走：第一步先给考生「扩题库」——不再只模仿单条人类轨迹，而是生成一批「伪专家轨迹」，涵盖减速、绕行、停车等各种可能的合理操作，再用PDMS规则筛选出高分路线，让模型知道「原来这些做法也是对的」。这就像让考生提前熟悉所有可能的考场场景，而不是只练教练给的那一条路线。

第二步是「保守自蒸馏」：先让评分器吃透PDMS的评分规则，学会给每一条路线打分；再让生成器跟着评分器的反馈慢慢调整，向高分路线靠拢，但又加上了「稳定性约束」——不能一下子改得太猛，避免偏离安全范围。就像考生根据考官的点评一点点调整答题思路，但不会彻底推翻之前的知识体系。

更聪明的是，CLOVER不需要评分器做到「绝对正确」。只要评分器选出的路线里，高分路线的比例比模型当前生成的高，模型就能稳步提升。这就像即使考官偶尔打错分，只要大部分时候能分清好坏，考生就能慢慢进步。

实测：从「练考脱节」到「接近人类水平」

这套思路在实测中拿到了惊人的成绩：在NAVSIM这个主流自动驾驶测试基准上，CLOVER的PDMS评分达到了94.5，几乎追平人类司机的水平，比之前的最好成绩高出了近3分。在更复杂的「NavHard」困难场景测试中，它也拿到了和最强模型相当的分数。

消融实验的结果更能说明问题：只做第一步「扩题库」，模型的候选路线多样性提升了3倍多，但最终选出的路线质量并没有明显提升；加上第二步「保守自蒸馏」后，最终路线的PDMS评分一下子从82分涨到了94.5分，同时还保留了足够的多样性。也就是说，它既能想出多种应对方案，又能选出最好的那一个。

当然，CLOVER也不是完美的。它目前还依赖高精度的地图信息，如果在没有地图的陌生环境里，「伪专家轨迹」的生成就会遇到困难。而且训练时需要反复调用PDMS评分器，计算成本很高，一张A100显卡要跑4.5天才能完成训练。

CLOVER的意义，不止是刷新了几个测试基准的记录，更在于它给自动驾驶的「练考脱节」问题提供了一套可落地的解决方案。过去，我们总在纠结是让模型更像人类，还是更遵守规则，而CLOVER告诉我们：不用二选一，让模型在规则的反馈里慢慢靠近人类的驾驶智慧就好。

从只会死记硬背的考生，到能灵活应对各种场景的司机，自动驾驶终于迈出了从「模仿」到「理解」的关键一步。毕竟，驾驶的本质从来不是复刻某条路线，而是在复杂路况中做出最合理的选择——练得像人不重要，做得对才重要。

练考脱节：自动驾驶的核心悖论

CLOVER：让考生和考官站在同一阵线

实测：从「练考脱节」到「接近人类水平」

评论