小模型逆袭，AI竞赛会换赛道吗？

不会简单“换道”，而是分叉成两条主赛道。顶层仍是追求通用性的超大模型，用于跨域理解、知识覆盖和生态入口；另一条则是“小而智”的推理与控制赛道，围绕单位算力回报、推理稳定性和训练-推理一致性做文章。ARC-AGI-3等交互式评测暴露了大模型在在线探索上的短板，小模型配合递归训练、课程式扰动与规划约束，在样本效率与鲁棒性上更有胜算。产业落点也在变：从“堆参数”转向“系统解”。边云协同、按需路由正成为默认形态——端侧用轻量循环模块做快速感知与多步精炼，只有在不确定性超阈时才上云端大模型；推理指标从单纯准确率扩展到能耗/时延/步数效率与稳定收敛性。资本和采购将更看“Return on Compute”和全生命周期TCO，而非参数规模本身。赢家的打法是方法与工程双轮：用DRM一类一致性训练让小模型学会自我修正；以检索、工具调用与路由把“大脑”变成“神经系统”；用更贴近场景的评测（Pass@k vs 步数、交互效率）驱动迭代。小模型并非万能，但在特定垂直、端侧与交互任务上，赛点已从“更大”转向“更对”。

AI的“反思”学习法，人类能用吗？

能。把AI的“反思回路”人类化，本质就是元认知：先生成、再评审、再修订。大量研究表明，自我解释与带反馈的“先错后练”能显著提升迁移与长期保持（效应量约0.5）。其机理与DRM相通：训练过程直接模拟考试时的推理轨迹，减少“看懂却做不出”的错配；多步精炼则逼你做前瞻性规划，而非贪心地只修最近一步。落地做法可以照搬“DRM式脚本”。前向一步：取优解或范例，刻意遮住20–40%关键环节，先独立补全。后向K步：对自己的解法做K=3–5轮单维度复核（先查逻辑与条件，再核算与单位，后改表述与图示），每轮都写下错因与修订。设置停止准则：连续两轮无新增高阶错误或把握>80%即止；逐周提高遮盖比例与变式难度，并给每题限时，防止“过度反思”拖慢进度。

AI学会了“举一反三”，不再死记硬背？

结论先说在前：在ARC这类抽象变换任务上，AI开始“像样地”举一反三了，但还谈不上脱胎换骨。DRM的价值在于让模型学会一种可迁移的“改错策略”，不是背答案而是迭代修正：从受损状态出发，规划后续K步把轨迹拉回正确解，这让小模型在陌生图形规则上也能稳住手、越走越对，体现出超越参数规模的泛化苗头。可别把这等同于人类式的通用举一反三。DRM强依赖循环架构与精心设计的“加噪过程”，优势主要体现在受控的网格世界；一旦换到开放语言、长链因果或跨模态迁移，缺乏显式变量绑定与可组合符号结构的短板会暴露。别忘了ARC-AGI-3上，人类全通关而AI的行动效率仍常低于百分之一级别——更像学到了一套强韧的“通用纠错程序”，而非跨领域的抽象概念体系。真正的跃迁，得等到可学习的前向过程、自适应规划尺度，和与世界模型/符号接口的深度整合落地。

新知 - 大圆镜｜700万参数模型干翻40亿，AI推理换赛道了

对抗知识焦虑，从看懂这条开始

App 下载

两种“笨办法”的死局

先得搞懂之前的AI推理为啥卡壳。过去有两条路，都走不通。一条是扩散模型的“短视路线”：就像让学生做“正确答案被涂掉一部分，复原就行”的练习题，训练时给正确答案加随机噪声，让模型学“去噪”。这种方法稳，能从易到难循序渐进，但到了考试就傻了——考的是“给你一个错误解题过程，让你纠错”，和训练时的“涂掉复原”完全是两码事，这就是“训练-测试不匹配”，模型根本不会真推理，只会做单步去噪。另一条是递归模型的“冒险路线”：从纯噪声开始，让模型一步步迭代修正答案，像在荒原里摸黑找宝藏。这种方法能学长远规划，但太不稳定了——迭代几百步后，梯度要么消失要么爆炸，模型很容易走偏，训练到崩溃是常事。两条路都有死穴，直到DRM把它们拧在了一起。

前进一步，后退K步的巧劲

DRM的核心逻辑说穿了就是“偷懒找对地方”——前向一步，后向K步。你可以把它想象成爬山：以前的递归模型是从山脚直接往上爬，容易迷路摔下山；扩散模型是在山顶附近找路，却不知道怎么下山再上山。DRM则是先坐缆车到半山腰（前向一步：从正确答案加噪声，生成一个“半对”的中间状态），然后从这里开始，一步步摸索着往上爬（后向K步：用4步递归迭代，把半对的状态修正成完全正确的答案）。关键是，这4步迭代的整个链条，会一起计算梯度反向传播。模型不再只看眼下的一步，而是要考虑“我现在走的这一步，会不会让后面三步更容易”——这就逼出了它的“隐式规划能力”。同时，训练时的迭代过程和测试时完全一致，再也不会出现“练的是一套，考的是另一套”的尴尬。

直给的技术逻辑是：先采样一个噪声等级，把正确答案“污染”成半对状态，再让模型用4步递归把它修正回来，全程用固定窗口的梯度回传避免崩溃。就这么简单的改动，700万参数的模型直接干翻了40亿参数的对手。

不是万能药，但指明了新方向

当然，DRM也有它的局限。它必须依赖递归结构，没法直接用到普通Transformer上；而且现在的噪声设计只适合ARC这种网格推理任务，换成文本、音频这类数据，还得重新摸索怎么加噪声；推理时要走4步迭代，比单步模型慢，不适合极端实时的场景。但更值得关注的是，它打破了“堆参数=高性能”的路径依赖。过去几年，AI圈陷入了一种“军备竞赛”：你做千亿参数，我就做万亿，算力成本翻着跟头涨，却没多少人想过换一种训练逻辑。DRM用700万参数的结果证明，真正的突破不在堆多少参数，而在怎么让参数更聪明地工作。它的实验数据更狠：训练集准确率到了99%以上，验证集性能还在涨——这说明它学的不是死记硬背的答案，而是通用的推理规则，抗过拟合能力强得离谱。

当大家都在往“更大的模型”这条路上挤的时候，DRM拐进了一条“更聪明的训练”的小路。它不是要取代大模型，而是给了AI推理另一种可能——在边缘设备、嵌入式系统、低成本场景里，小模型也能做出高质量的推理。这背后其实是AI发展的一个转向：从“追求规模”回到“追求效率”。毕竟，真正能改变世界的AI，不是只有少数大厂能玩得起的巨无霸，而是普通人也能用、随处都能跑的“轻量级智能”。 小模型的胜利，是效率的胜利。

两种“笨办法”的死局

前进一步，后退K步的巧劲

不是万能药，但指明了新方向

评论