当AI们开辩论会，会诞生新逻辑吗？

先把话说清：形式“逻辑”指有公理与推理规则、可证明健全/完备的体系；AI 辩论多数产出的是“新策略/启发式”，不是这类新体系。MAD‑Logic 把同一问题翻译到多种符号表示再互辩纠错，本质是更好的对齐与校验，并未发明演算。再看一致性评测：主流模型在逻辑一致性任务上准确率仍低于 50%，离构建稳定的演绎框架还有距离。但辩论确能催生“准逻辑”——新型推理套路、候选规则与中间符号。异构多智能体能把不同偏好拼成更强的规则库；实证上，纯 MAD 往往不敌单体 CoT（36 种配置胜率不足 20%），引入异构与稀疏通信后可提升至约 30%，且成本可降至约 10%。若把辩论产出的规则外化为可机验证的约束（用求解器/证明器过检，失败回炉修订），长期积累就可能“沉淀”为一套领域演算——这才算真正逼近“新逻辑”。

AI学会自我批判，能看见人类盲点吗？

能，但前提是把“自我批判”系在可验证的锚点上。用反事实编辑、符号求解器、可解释特征和跨题一致性检查，AI确实能照见我们常忽略的细节与矛盾：视觉里靠自造对照图盯住微差；语言里，SAE 在微调前就以>0.75 的相关性预警迁移偏移；逻辑里，一致性约束专挑人类最爱跳步与自相矛盾的地方。可一旦脱离锚点，“自省”很容易变成自我确认：多智能体辩论并非稳胜，长上下文评审在>4K 时准确率跌到近乎随机，“自我提升”甚至会把原有偏见越磨越亮。要让AI真正看见人类盲点，必须把自我批判接到外部世界：用工具与数据给出可检验结果，以多样化视角制造分歧并强制和解，配合熵与不确定性校准，避免把盲点照得更亮却不更准。

若能预测AI天赋，能定制专属AI大脑吗？

可以，但前提是“预测”不止于分数，而是能定位可控的表征单元。像用SAE做迁移度打分（与真实性能相关性>0.75）与熵/电路签名结合，就能在微调前挑对基座、挑对任务，并只改“该改的地方”——例如优先训练协同核心电路，往往比平均训练拿到更大的单位算力收益；配合LoRA/Adapter（<1%参数）与MoE路由，就能拼装出任务定制的“专属大脑”。落地路径更像一条装配线，而非魔法按钮：先做“天赋画像”（SAE字典找偏移维度、估计域对齐与熵裕度），再做结构与策略选型（MoE专家+检索/工具接口），随后用有针对性的后训练——推理用SRFT一阶段融合、工具用ResT的token级熵感知优化、视觉用ViPER式自举数据闭环；上线前以逻辑一致性与OOD压力测试兜底。这类定制在公开基准已见到稳定增益（如ResT最高+8.76%、ViPER细粒度+6%），且成本可控。要警惕的是“好分数未必好大脑”：指标可被优化、分布会漂移、局部电路编辑可能引入副作用。实践中要持续校准（小预算A/B+反事实干预）、多任务约束与安全审计并行，别把“可解释特征”当作绝对真理。结论是：能定制，但是一套以表征诊断为锚点的工程化流程，而非一次性炼成。

新知 - 大圆镜｜AI推理能力爆发，竟靠这两种后训练魔法

对抗知识焦虑，从看懂这条开始

App 下载

从“模仿做题”到“学会思考”：ResT的熵魔法

你可以把大语言模型学工具调用想象成学生做应用题：一开始得先搞懂格式——要写“解”，要列公式，不能乱涂乱画；等格式熟了，再去练怎么算对答案。传统的强化学习训练就像老师只看最后得分，学生可能靠蒙答案拿高分，却没学会真正的推理逻辑。 ResT的思路是给每个“解题步骤”单独打分。它把模型输出的每个token（可以理解成语言的最小积木）分成两类：一类是低熵的“格式token”，比如工具名称、参数符号，这些是必须写对的“解题格式”；另一类是高熵的“推理token”，比如思考过程、参数计算，这才是真正体现能力的部分。

训练时，ResT会先盯着低熵token，确保模型把工具调用的“格式”练熟，随着训练推进，慢慢给推理token增加权重，让模型从“凑格式”转向“真思考”。这种熵感知的动态调整，就像老师先抓卷面整洁，再抓解题思路，既避免了学生一开始就跑偏，也不会让他们困在格式里出不来。在BFCL和API-Bank等工具调用基准测试中，ResT比传统方法最高提升8.76%的准确率，在4B参数模型上实现了对GPT-4o的局部反超——这证明，给模型找对学习节奏，比单纯堆参数更高效。

把“补课”和“刷题”合并：SRFT的单阶段革命

过去训练大模型推理能力，得先让它“模仿做题”——用监督微调（SFT）把专家的解题步骤刻进模型；再让它“刷题改错”——用强化学习（RL）让模型自己试错，靠奖励信号优化。但这两步分开走，很容易出问题：要么模仿太死，模型只会套模板；要么刷题太野，模型学偏了方向。 SRFT的创新在于，把“模仿”和“刷题”放进了同一个课堂。它发现，监督微调是给模型做“粗粒度的全局塑形”，就像老师给学生讲一遍解题框架；而强化学习是做“细粒度的局部修正”，像学生自己刷题时调整思路。如果能让这两个过程同时进行，模型就能一边学框架，一边练细节。具体来说，SRFT会同时给模型喂两种数据：一种是专家的示范题，让模型模仿；另一种是模型自己生成的练习题，让它自己试错。它还会用策略熵当“学习进度条”：当模型还在摸索框架时（熵高），就多给模仿任务加权重；等模型框架熟了（熵低），就多给刷题任务加权重，避免模型过早陷入固定套路。

在数学推理基准测试中，SRFT比纯监督微调提升4.8%，比零强化学习的基线提升9%，在分布外的陌生题目上，准确率领先最佳基线4.7%。这说明，让模型边学边练，比先学后练的效果要好得多。当然，这些技术也不是万能的。ResT在超复杂多轮工具调用任务中，仍会出现推理链条断裂的情况；SRFT的单阶段训练对计算资源的调度要求更高，普通实验室很难复刻。但它们的核心思路——用更精细的策略引导模型学习，而不是靠堆数据和参数——已经成为后训练的新方向。

不止是解题：后训练的未来战场

除了ResT和SRFT，美团ASX团队还公布了另外4项研究：用多智能体辩论提升逻辑推理的MAD-Logic，能预测模型迁移能力的SAE评分系统，评测逻辑一致性的LogiConBench，还有让视觉语言模型自主进化的ViPER。这些研究指向了同一个趋势：大语言模型的竞争，已经从预训练的“参数军备竞赛”，转向后训练的“能力精细化战争”。比如LogiConBench这个评测基准，它能生成无限量的复杂逻辑题，当前最先进的模型在最难的任务上准确率也只有34%——这暴露了大模型在逻辑一致性上的短板，而这恰恰是医疗、法律等严肃场景最看重的能力。再比如基于SAE的迁移能力预测，能在模型微调前就判断它在新领域的表现，相当于给模型做“能力体检”，避免了盲目训练的浪费。这些技术已经开始落地：ResT方法被用到了美团的小团算法自训练模型中，在离线和在线评测中都拿到了实际收益；SRFT的单阶段训练思路，也被用于优化数学推理模型的训练效率。

当我们谈论大模型的“智能”时，往往会盯着参数规模、预训练数据量这些显性指标，却忽略了后训练这个“隐形的老师”。ResT和SRFT的成功证明，AI的能力提升，本质上是人类对“教AI学习”这件事的理解在加深。未来的大模型，可能不再是靠堆参数堆出来的“超级学霸”，而是靠精准训练策略教出来的“会思考的学生”。预训练给AI知识，后训练给AI智慧。这句话或许会成为大语言模型下一个阶段的核心注脚。

从“模仿做题”到“学会思考”：ResT的熵魔法

把“补课”和“刷题”合并：SRFT的单阶段革命

不止是解题：后训练的未来战场

评论