自信的AI和诚实的AI，你更信谁？

我更信“诚实的AI”。在开放世界里，错误但自信的答案代价远高于一次“我不确定”的停顿。能量化不确定性的系统不仅能少犯错，还能把算力花在刀刃上：把低把握的步骤交给再采样、修复或更强模型，把高把握的提前收敛。这类“可怀疑、可拒答、可复核”的管线，往往在相同预算下拿到更高的期望效用，并满足审计与合规对可解释置信区间的要求。把“诚实”落到工程上，也并非口号：要有可校准的概率与置信度（而非裸分），用下置信界做决策门槛，以不确定性触发人审或模型级联，并持续监测覆盖率-错误率权衡与拒答曲线。经验显示，经过良好校准与自适应分配的系统，能显著压低高风险错判，同时保持或提升总体准确。当然，若任务是低风险、可即时验证、且目标是极致时延（如简单自动补全），“自信的AI”也许更顺手。但一旦牵涉推理链条、长期后果或监管要求，选择“诚实的AI”几乎总是更优解。

会“认怂”的AI，也会有选择困难症吗？

不太会。BETAPRM把“不确定”从隐性变成显性，ACA用风险调整分数配合LCB/UCB给出可证明的停止证据：要么确定当前胜者的下界仍领先、立即收工；要么定向修复最不确定的前缀再试。即便所有候选都“不自信”，也会在预设预算上限停下，而不是无限犹豫。会显得“纠结”的主要是三种边缘局面：置信度整体偏冷（κ过低）、分布外样本导致人人低置信、候选高度同质让UCB/LCB差距变小。工程上有解：设定κ_min并做温度/Platt校准与ECE/Brier监控；强制多样化采样与明确tie-break；让λ随批次递增、提高修复步探索温度；必要时回退到固定BoN或阈值停止。实测它在相同N下节省约17%–34% token且精度不降，说明“会认怂”并未演化成“选择困难症”。

AI向大脑扫描技术“偷师”了什么？

AI真正“偷师”的是表征与目标函数。大规模自然观看（电影、播客）fMRI把模型中间表示与脑区响应做表征相似性分析与编码建模后发现：自监督的预测式目标（掩码建模、对比学习）与层级表征最贴近腹侧视觉流，高层ViT特征尤能拟合IT皮层的语义梯度；跨被试的Hyperalignment把个体语义几何对齐，也直接启发了跨模态共享嵌入与对比损失的一整套做法。第二个偷来的本事是不确定性与省算力。成像与电生理表明前额叶/顶叶会显式编码决策置信度，支持“贝叶斯大脑”观点；工程上便是给模型加置信度头与分布式损失，把分数与把握分开评估，并据此早停与动态分配计算（和MoE、token裁剪同脉）。同时，任务态的大脑呈稀疏重配置、整机仅约20瓦功耗，这些“硬约束”推动了可变计算、长时窗记忆与低秩适配等设计取舍。最后，AI学会把脑信号当“弱监督”。自然观看范式下，fMRI/MEG与生成模型联合，完成视觉与语义的解码与重建，反过来成为模型选型与正则化的标尺，带来更强的泛化与可解释性。伴随而来的神经隐私风险也已倒逼研究者在解码器侧引入差分隐私与语义屏蔽，避免“读心”被滥用。

新知 - 大圆镜｜AI终于学会说“我不知道”，还能省1/3算力

对抗知识焦虑，从看懂这条开始

App 下载

给分数加个“靠谱度标签”：Beta-Binomial的魔力

你可以把传统过程奖励模型（PRM）想象成一个只会打分数的老师：对学生的每步解题过程，它只会给出0-100的分数，却从不说明这个分数的可信度——是基于扎实知识的判断，还是凭感觉给的？实际训练中，这个“分数”来自16次蒙特卡洛采样的成功比例，比如16次里有10次做对了，就给0.625分。但问题是，16次采样的随机性很大，这次是10次下次可能是8次，传统模型会硬着头皮去拟合这个充满噪声的单点，很容易把采样误差当成真实规律。

BETAPRM的核心创新，是用Beta-Binomial分布重新建模这个过程：它不再把16次采样的成功次数当成固定标签，而是假设每步推理的真实成功概率本身是一个有波动的范围。模型会输出两个参数：一个是类似传统分数的均值μ，代表它判断的成功概率；另一个是浓度κ，代表它对这个判断的置信度——κ越大，说明这个分数越靠谱，κ越小，说明不确定性越高。

用做饭打个比方：传统模型只会说“这个菜咸度合适（0.8分）”，而BETAPRM会说“我有90%的把握，这个菜咸度合适（μ=0.8，κ=18）”，或者“我觉得这个菜咸度合适，但只有50%的把握（μ=0.8，κ=2）”。为了防止模型“瞎自信”，训练时还加了一个正则化项：如果模型给出的均值和实际采样结果差得远，还敢说自己很确定，就会被惩罚。

让算力用在刀刃上：自适应计算分配的魔法

有了置信度信号，AI推理就能实现“按需分配算力”，这就是自适应计算分配（ACA）机制。传统的Best-of-N推理是不管三七二十一，固定生成16个候选答案再选最优，哪怕其中某个候选一开始就遥遥领先，也要浪费算力生成完所有16个。ACA则像一个聪明的面试官，一旦确定某个候选人明显优于其他人，就提前结束面试；如果暂时分不出胜负，就针对最不确定的部分再深入考察。

具体来说，ACA分三步运行：首先生成一小批候选答案，用BETAPRM给每个答案的每一步打分并标注置信度；然后计算当前最优候选的“下置信界”——也就是它最差情况下的可能分数，和其他候选的“上置信界”——也就是它们最好情况下的可能分数，如果最优候选的最差情况都比别人的最好情况好，就直接停止生成；如果不行，就找出当前最有竞争力的候选，把它置信度最低的推理步骤截断，重新生成后续内容，相当于“针对薄弱环节再考一次”。

实验数据显示，这种动态调整能在保持甚至小幅提升准确率的情况下，把Token消耗减少16.7%到33.6%。比如用InternVL2.5-8B模型在MathVision数据集上测试，传统方法准确率25.00%，Token消耗12.3千；用ACA后准确率升到26.32%，Token消耗降到8.1千，直接省了1/3还多。

从数学推理到多模态：还有多少可能性

目前BETAPRM的实验主要集中在数学和视觉推理场景，在4个不同的多模态骨干模型、4个数学推理基准上，它都比传统PRM平均提升了1.3到3.4个百分点的准确率，而且在步骤级错误检测任务上表现和传统模型相当，甚至略有提升——这说明引入置信度信号并没有牺牲模型对具体步骤对错的判断能力。

但它的潜力不止于此。这种“让AI学会表达不确定性”的思路，完全可以推广到文本推理、强化学习、人机交互等更多场景：比如在客服AI中，当它对用户问题没有把握时，直接转人工而不是硬着头皮回答；在强化学习中，当模型对某个动作的后果不确定时，优先选择更保守的策略；在医疗AI中，给诊断结果附上置信度，让医生能更合理地参考AI建议。

当然，当前方法也有局限：训练需要每步都有蒙特卡洛采样的成功计数，数据采集成本较高；而且只在数学推理场景验证过，能不能泛化到其他领域还需要更多实验。但不可否认的是，它给AI推理指出了一个新方向：比起让AI“假装什么都知道”，让它“知道自己不知道”，才是迈向可信AI的关键一步。

我们总期待AI能给出确定的答案，就像小时候期待老师给出唯一的标准答案。但真实世界里，不确定性才是常态——医生看病会说“大概率是感冒，但不排除肺炎”，法官判案会考虑“证据链的可信度”，就连我们自己做决策时，也会权衡“这件事我有几分把握”。

BETAPRM的意义，不止是提升了AI推理的效率和准确率，更在于它让AI开始学会像人类一样思考：不追求绝对的确定，而是在不确定性中给出负责任的判断。**可信的AI，从学会说“我不知道”开始。**未来的AI不该是一个永远自信的判官，而该是一个坦诚的顾问——既能给出专业建议，也能如实告知建议的风险，让人类最终掌握决策的主动权。

给分数加个“靠谱度标签”：Beta-Binomial的魔力

让算力用在刀刃上：自适应计算分配的魔法

从数学推理到多模态：还有多少可能性

评论