AI学会“挑食”后，数据还越多越好吗？

不一定。当AI学会“挑食”，数据的边际收益会很快递减，甚至被低质、重复、冲突标注稀释，出现“越加越差”。在固定算力下还存在“计算最优”数据规模：超过这个点，训练步数被摊薄、噪声放大，效果反而下滑。一个直接证据是，有研究用精挑的1000条示例微调，小模型反而比用完整10万条教师语料更准，说明质量与信息增益比“堆数量”重要得多。但“多”在两种情况下仍然值回票价：一是新增了真正的“信息密度”——长尾险情、极端天气、跨城市/季节分布迁移；二是通过仿真与反事实合成，定向覆盖模型已知薄弱环节。做法上，要把增量数据纳入持续的边际收益评估，先去重、降噪、重配比，再与模型规模和训练步数协同扩展。要的不是无差别地更多，而是持续供给“对的、更有信息量的”数据。

AI司机的好，是谁定义的好？

“好”的定义不在一家之言，而是多方共管的合约。监管先给出底线：在声明的运行域内，用曝光归一的后果性指标——如每百万公里的碰撞、重伤、致死率——与人类基线比值小于等于1，并能被审计的安全案例、事件记录器与强制上报闭环支撑；独立测评再补上可比性：按真实交通分布加权的场景集，用TTC阈值、最小间距、违规率等代理安全指标解决“里程不够证”的统计难题。谁来拍板“够好可以上路”？保险与司法用真金白银给答案：赔付率和过错判定若不优于人类司机，保费与责任会把“好”打回原形。最后由公众与城市管理者给出社会许可：舒适、遵规、通行效率与可解释性是否达到可接受风险。厂商自用的EPDMS之类只是内评，必须对齐上述三线，并披露不确定性与置信区间。想宣称“比人类更好”，通常需要数亿公里等效曝光下≥20%的优势且95%置信；在达标前，就老老实实用场景加权的代理指标与事故因果复盘做过渡证明。

用这套方法，能定制专属学习计划吗？

能。把知识点、题型和难度当作“域”，用几分钟短测/小练做“试点”，估计每个域的“学习量—收益”曲线（正确率、掌握度、速度随练习量上升并趋于饱和）。再定义一个综合目标（如分数=正确率×稳定度×答题速度），在既定时间预算里，始终把下一段学习投给“边际收益”最高的域，收益转弱就切换。用起来像这样：先做一轮自适应测评拿到各域初始曲线；今晚180分钟被切成若干小块，每块推送“最值钱”的题组；边际变小就换域，并穿插间隔重复稳固记忆。第二天用新数据重拟合，计划自动进化，而不是手写死板清单。但要把握几个关键：收益度量必须可靠（同质题库、一致评分）；跨主题迁移与先修关系会干扰独立性，需在模型里显式建图；疲劳与心流会改写曲线形状，加入休息与多样化约束更稳。只要持续在线校准，这种按边际收益分配的学习计划，往往比平均刷题更快逼近目标分。

新知 - 大圆镜｜自动驾驶省80%训练数据，靠的不是模型是选数据

对抗知识焦虑，从看懂这条开始

App 下载

先给数据“分帮派”：聚类的底层逻辑

你可以把自动驾驶的训练数据想象成一锅大杂烩：有海鲜、有青菜、有主食，混在一起煮，既浪费食材，也煮不出好菜。MOSAIC做的第一件事，就是把这锅菜按食材类型分开——也就是数据聚类。

聚类不是简单按地理位置或天气分堆，而是用算法找出那些“对模型提升效果相似”的数据。比如波士顿的环岛、旧金山的陡坡，虽然地理位置不同，但都属于“需要复杂转向决策”的场景，会被归为一类；而拉斯维加斯的直道、德州的乡村公路，都属于“长时间匀速驾驶”的场景，会被归为另一类。

分好堆还不够，同一堆里也有好坏之分。MOSAIC会给每个数据样本打个“重要性分数”：用当前模型跑一遍这个样本，看它能给综合驾驶评分（比如不撞车、守交规、坐得舒服这些指标的总分）带来多少提升。提升多的就是“优等生”，优先选进训练集。

但真实的聚类比这个类比更精确：它用的是无监督学习算法，通过分析数据的特征空间，自动找出相似度最高的样本组，不需要人工定义“复杂转向”或者“匀速驾驶”这些标签。

用缩放定律算“性价比”：不瞎采每一份数据

如果说聚类是“分帮派”，那缩放定律就是MOSAIC的“算账工具”。这个概念原本在大语言模型领域火——简单说就是，模型性能随数据量增长的规律是可预测的，就像你给手机充电，前10分钟能充50%，后面10分钟可能只能充20%，边际收益会递减。

MOSAIC给每个数据聚类单独拟合一条缩放曲线：先做几次小规模的“试点训练”，比如从“复杂转向”聚类里取100、200、400个数据，看模型的综合评分分别涨了多少，然后用这些数据拟合出一条饱和曲线。这条曲线能预测：再从这个聚类里加100个数据，能多涨多少分？什么时候再加数据就不划算？

有了这条曲线，MOSAIC就像拿着一张“数据性价比地图”：先采那些加一点数据就能涨很多分的“富矿”，比如波士顿的环岛；等这些“富矿”的边际收益降下来，再去采那些涨分慢但稳定的“贫矿”，比如德州的乡村公路；最后实在没矿采了，才去碰那些涨分微乎其微的“废矿”，比如拉斯维加斯的直道。

这个过程是动态迭代的：每采一批数据，就重新计算一次各聚类的边际收益，然后调整下一批的采样本。直到把预算花光，最后选出的数据集，就是在给定预算下能让模型性能最大化的最优组合。

不是完美方案：它的短板和未来

当然，MOSAIC也不是万能的。它的效果高度依赖初始聚类的质量——如果把“复杂转向”和“匀速驾驶”的数据混在一个聚类里，那拟合出的缩放曲线就会完全失准，后续的选择也就全错了。而且，拟合每个聚类的缩放曲线需要做多次试点训练，这本身也要消耗算力，虽然比起全量训练的成本来说九牛一毛，但对于超大规模的模型和数据集，这笔开销也不能完全忽略。

更值得关注的是，MOSAIC的思路其实跳出了“靠更大模型、更多数据提升性能”的惯性思维，转向了“用更聪明的方法利用现有数据”。这在AI训练成本越来越高的今天，可能是比研发新模型更务实的方向。它的框架是通用的，不仅能用于自动驾驶，还能迁移到机器人、医疗影像分析等任何“数据多到用不完、算力却不够”的领域。

实验数据也证明了这一点：在OpenScene数据集上，MOSAIC只用随机采样15%的数据，就达到了后者用全量数据训练的效果；在Navtrain数据集上，数据效率提升也高达70%。而且它不是在某一个指标上刷分，而是能平衡提升所有驾驶指标——比如发现模型在“碰撞避免”上得分低，就优先采能提升这个指标的数据。

当我们还在惊叹大模型参数突破万亿的时候，MOSAIC悄悄给AI训练踩了一脚“刹车”：不是数据越多越好，而是有用的数据越多越好。它就像一个精明的投资人，不会把钱撒在每一个项目上，而是把钱投给那些回报率最高的项目，直到预算花完。

“数据的价值不在多，而在精准。”这句话放在今天的AI领域，比任何时候都更有分量。未来的AI训练，可能不再是比谁的数据更多、模型更大，而是比谁能更聪明地利用数据——毕竟，算力和数据的成本不会无限下降，但人类的智慧可以无限提升。

先给数据“分帮派”：聚类的底层逻辑

用缩放定律算“性价比”：不瞎采每一份数据

不是完美方案：它的短板和未来

评论