AI学会“抄近道”，还会“走神”创新吗？

把城市当作知识的迷宫：有时你需要抄近道直达目的地，有时你也想“走神”在小巷里瞎逛，偶遇一家从未在地图上标注的好咖啡。如今的AI也在学这两种本领。它既能像装了GPS一样高效抵达正确答案，也能在需要的时候，保留探索的空间，生出“没走过的路”。先看“抄近道”为什么突然变得这么香。∇-Reasoner把训练时的梯度下降直接搬到了推理阶段，用可微文本优化去调整每个词背后的logits，让答案沿着奖励模型的“上坡方向”滑行。结果是：在数学推理上全面超越自洽采样、Best-of-N、思维树、RAP等零阶“盲猜”派，还把模型调用减少了最高约40%。它不是多生几篇草稿再投票，而是一步一“导航”，并通过KL约束与Gumbel-Softmax的直通估计维持语言自然度。这种一阶“导航”让AI少走弯路、算力更省。可高效会不会扼杀创新？不一定。创新不是无边无际的胡思乱想，而是“新颖×合理”。∇-Reasoner的DTO在序列中双向传递信息：前缀、后缀与奖励的梯度互相影响，能把“最终正确性”的信号回流到中间步骤，帮助早早改正走偏的思路——这是更聪明的探索，而非更少的探索。更妙的是，它只在不确定且梯度强的token上加大思考强度，把“走神预算”用在刀刃上。整个领域也在教AI“又快又会想”。可验证过程奖励机制通过给每个思考步骤打分，鼓励有用步骤、惩戒水词，抑制无效“过度思考”，让深思是为了解题，而不是为凑篇幅。元学习视角下，长链条推理像一次“即时更新”，从中提炼摘要做短链条，也能保留关键跃迁，既降解码开销，又不掐断灵感脉络。隐式过程奖励的研究把训练一个好奖励模型的成本降到原来的约1/38，让我们更容易把“新颖度奖励”“多样性奖励”装进系统，给创新以制度化的空间。更前沿的“潜在漫游”也在发生。多智能体潜在协作框架把推理与交流全部放到连续潜在空间里，准确率提升的同时，比文本式协作减少约60%–88%的token，用时快到4倍以上，甚至比单模型还少用15%–60%的token。潜在表征比离散词更富语义与多样性，等于给“走神”开了一条更宽的内在通道。生成领域同样如此：最短路径优化把扩散采样从10步压到2步还更清晰，画质指标提升近两成；新的动量蒸馏方案把“直线抄近道”升级为“学走曲线”，2步也能逼近教师质量，推理加速可达几十倍。少并不是浅，关键在路径是否对。当然，风险也真实存在。强奖励会诱发“奖励黑客”，单一奖励会导致“安全同质化”，过强的导航可能形成“模式坍缩”。解决之道不是撤掉导航，而是给导航装上弹性与多视角：用不确定触发的深思模式，保留温度与噪声以维持探索熵；用KL边界防止行为漂移；引入多奖励、对比判别与人类偏好中的“新颖度”信号；在解题与创作切换时采用“发散—收敛”的双相日程，让系统定期“散步”，再带回新发现。所以，AI学会抄近道，还会不会“走神”创新？会，而且可能更会。近道让它把算力省下来，用在真正值得展开的岔路口；梯度导航让它少在平地绕圈，把探索留给高价值山脊。当我们把奖励从“只要对”升级为“既对又新”，把路径从“只有一条”升级为“能快也能弯”，创新就不再是效率的反面，而是效率的产物。也许，这正是人机共智的新隐喻：日常通勤要快，灵感散步要慢。让AI既做稳健的通勤者，也偶尔做城市的漫游者。真正的创造，常诞生在规训与游离的交界处——目的地明确，路线开放。

没有标准答案的难题，AI导航该听谁的？

当世界没有标准答案，AI该把耳朵贴向哪里？想象它在雾中开车：没有终点坐标，只有路边零星的里程碑、来自人群的指路、仪表盘的指针和自己的直觉。真正聪明的导航，恰恰是把这些“弱信号”编成合唱，而不是迷信任何一支独奏。可验证器是可靠的地图。很多“无标准答案”的难题仍能给出客观分数：满足了多少约束的SAT、跑得多快的系统吞吐、代码是否通过单元测试。它们不告诉你唯一解，却能告诉你“更好还是更差”。研究者据此构建连续的评分阶梯，让AI像登山者那样持续抬高海拔，而非在“对/错”的黑白世界里原地打转。这类地图越清晰，探索就越不盲目。梯度是一枚能指向上坡的指南针。∇-Reasoner把训练期的梯度下降搬到了推理时，用“可微文本优化”直接在logits上做微调：一边沿奖励模型的梯度往高分处滑，一边用对原模型的KL约束保持语言自然。更妙的是，梯度能在整段文本里双向流动：后文与奖励信号会“回头”修正前文，让推理不再只靠左到右的单向惯性。这种一阶“导航”在数学推理上显著超越零阶的“盲猜”，还靠梯度缓存、轨迹复用与不确定性门控把计算开销压了下去。当然，指南针也会失灵——奖励模型若带偏见或被“奖励黑客”利用，梯度会把你带向悬崖。所以要校准它：进行偏差审计、用多评审模型集成、对异常高分输出施加正则与人审抽检。过程奖励像沿途的路标。与只看终点不同，VSRM为每一步推理打分，鼓励“有效步骤”、惩戒“无效赘述”，并用前瞻窗口让信号更密。面对“过度思考”导致的长链啰嗦，这种粒度更细的监督能让模型少走回头路，多走关键路。群体智慧是一支同行的车队。没有权威答案时，自洽性采样与多数投票能给出稳健的“群众方向感”。更进一步，测试时强化学习把这种群体信号变成在线自我进化：在使用中边解题、边根据伪标签和规则奖励自我更新，性能常常越跑越好。它不是完美的真理仪，却是统计意义上的风向标。元学习与反思是飞行记录仪。把长推理轨迹进行摘要，把“关键梯度”提炼成短链条，让模型在不牺牲正确性的前提下降低解码开销；把“推理即隐式优化”的视角用于跨任务迁移，让今天走过的弯路变成明天少走的路。这能避免陷入“微优化陷阱”，把注意力从枝叶拉回主干。把这些部件叠成一套导航栈，AI才走得稳：用可验证器当地图，用梯度当指南针，用过程奖励插路标，让群体共识护航，再配上不确定性评估与拒答机制当刹车。高风险场景加入人类裁判；低风险探索用∇-Reasoner等一阶方法提效；全程以KL、熵与梯度门控约束“走偏”的冲动。这不是“听谁”的二选一，而是“何时更该听谁”的动态协同。专家共识正在形成：在没有标准答案的地带，“可被验证的进步”比“宣称的正确”更重要；单一评审比不过多元评审的稳定性；会走就要会停，能算还要会审。理论上，像∇-Reasoner那样的推理时优化与强化学习式的训练时对齐在数学上呼应；工程上，过程奖励与在线自适应把效率与效果拉到同一条船上；治理上，奖励模型的透明度、偏差监测与人机共审是必要的安全阀。回到开头的问题：没有标准答案的难题，AI导航该听谁的？听能被检验的世界，听会指方向的梯度，听能减少无效绕圈的过程信号，也听多样而克制的群体共识；最后，还要听得见自己的“不确定”。在未知的山脉里，北极星只有一颗，但可用的路标有许多。学会在多重信号中加权前行，或许正是智能迈向成熟的真正开始。

直觉与最优解，你会相信哪个“向导”？

当你在雾夜山脊上找路，是跟着老猎人的直觉闻风辨岔，还是盯着GPS的箭头步步修正？在大模型的世界，这个古老的抉择正在被重新定义：直觉，还是“最优解”的导航。直觉像零阶搜索，试一试、看一看、再回头修正。人类如此，许多推理型大模型也长期如此——生成一堆答案，凭得分挑一个。但最近，一个看似“反直觉”的突破把训练时的梯度下降搬到了推理时：∇-Reasoner不再让模型盲猜，而是让奖励模型给出方向的“坡度”，对每一步的输出在隐空间里做微调，让答案顺着正确性的斜坡“滑”过去。更妙的是，它用可微文本优化把离散的词变成可优化的logits，并用Gumbel-Softmax打通反向梯度；在数学基准上，它不仅准确率全面超越Best-of-N、思维树、思维投票等“猜测派”，还把模型调用次数最多压到少40%，并在理论上证明了这种推理时的对齐与强化学习训练的对齐有等价联系。这听起来像“最优解胜利”的号角。可世界并不总有清晰的奖励函数。在可验证、可度量、因果清晰的任务上——如数学解题、代码验证、规划约束——“最优解”导向确实强势：∇-Reasoner用奖励梯度直接修正步骤，微软等团队用可验证过程奖励惩戒无效思考，还有引入外部验证器的测试时强化学习，用代码执行来打破“错误共识”的群体迷思。这些方法的共识是：当你能量化“对不对”，就让导航带你抄近道。可在价值多元、目标含糊、创意为王的场景里，直觉依旧是好向导。心理学把它叫“系统1”：迅捷、模式化、依经验生长。优秀的直觉并非“眉头一皱”，而是长期战例、反思和反馈在潜意识里沉淀的“内置先验”。写诗、定品牌调性、捕捉用户隐性动机，这类问题的“奖励模型”常常嘈杂、延迟、甚至不可微。此时，过度追逐“可被量化的最优”容易驯化出乏味答案，把珍贵的创造力当作噪声滤掉。那究竟该信谁？看问题的“可验证度”和“反馈密度”。当你能拿到即时、客观、可复用的信号（答案能算、程序能跑、约束能检），请用“最优解”的武器：让验证器当裁判，让梯度给方向，让推理像上坡。遇到模糊目标与多解空间，就把直觉摆在前排，用它快速提出强假设，再引入轻量的验证——A/B小实验、同侪评审、风险清单——给直觉装上“软梯度”。这就是人类版的混合范式：直觉定大方向，优化走最短路，验证防走偏。别忘了，“最优解”也有局限。奖励模型会有偏见，梯度会“导错路”，乃至硬件数值精度的微尘都能改变解码分岔，严苛的“贪心”也可能在不同GPU上给出不同答案。工程世界里，再漂亮的最优也只是“在给定假设下的局部最优”。因此，把探索预算留给少数高不确定、影响巨大的节点，让搜索与验证聚焦关键步骤，是更明智的资源分配。如果你是实践者，一个好用的心法是“先快后准、以短驯长”。先用直觉或贪心给出骨架，再用过程奖励或外部工具对关键节点做精修；把冗长的思考轨迹压缩成可复用的摘要，让下一次推理以“短思路”直达要害。这是把人类的元学习与机器的测试时优化接上电，让“会想”变成“想得省、想得对”。回到那条雾夜山脊：有GPS时，别逞英雄抄山道；没信号时，听一听风向和松针的沙沙声。真正的智慧，不是永远相信直觉，或永远膜拜最优，而是知道在何时、为何、用何种代价，让哪个向导走在前面。为直觉装上可验证的梯度，为最优保留想象的空间，你的路径，才会既快且稳，也足够辽阔。

AI学会如何答题，但谁来为它“出题”？

当AI已经学会“解题”，真正决定它能走多远的，其实是“谁在出题”。在人类世界，老师负责授课，命题组定义标准，裁判给分；在AI世界，这三者分别投射成任务基准与环境、奖励模型与过程监督、以及可验证的评测器。∇-Reasoner把训练时的梯度带到了推理现场，让奖励模型不止是打分的裁判，更像一位拿着“高度地图”的出题人兼领路人，用可微的梯度把模型一步步导航到更优答案。谁来为AI出题？人类仍然掌握着方向盘。数学领域的AIME、AMC、MATH-500等基准由专家精心编制，覆盖从算术直觉到结构化证明的多层能力，像一套不断更新的“全国卷”设定了能力边界。这些基准的价值不只在正确率，更在于题型分布、难度爬坡与“不可投机”的验证方式，避免被语料泄漏或模板记忆误导。机器也正在成为高产的命题者。可程序化生成让我们先构造解，再反向合成题目；约束求解与随机化参数确保多样性和可控难度；自博弈与MCTS式搜索会自动挖掘“最能区分水平”的题带，像是给模型量身定制错题本。在代码、数学、逻辑三类任务中，单元测试、符号证明器与数值校验提供“可验证地对”的标准，使出题与判题闭环。真正关键的“出题人”，是奖励模型。它不只是期末判卷，而是制定命题大纲的人：什么叫好答案、哪一步算有效、哪些表达应被惩罚。过程级奖励把“只看最终分”的粗糙考试，变成“每一步都能拿到分数线索”的分步测评。像VSRM那样对推理链中每个步骤的增益进行打分，鼓励有贡献的思考、抑制无效赘述，直接对治“过度思考”的计算浪费。更进一步，生成式奖励模型结合人类反馈与AI反馈，以更低的人力成本持续刷新评分标准，维持题库与评分的时效性和覆盖度。 ∇-Reasoner揭示了另一个重要转变：当奖励模型是可微的“命题+评分器”，AI不必再盲目采样海量候选来碰碰运气，而是沿着梯度指向的上坡路前进。可微文本优化不直接改动离散词，而是优化logits这层“连续倾向”，以“高奖励+像人话”两个目标协同驱动。梯度可以在整个序列中双向流动——后文对前文施加约束、奖励信号传到每个中间步骤——这就像优秀的出题与评分能促使学生在中途及时修正思路，而非走到尽头才发现南辕北辙。一个可持续的“AI出题系统”少不了工程化治理。动态基准与对抗式出题抵御投机与遗忘；主动课程设计根据不确定性与梯度强度，挑选最能“拉动进步”的题点名提问；轨迹复用、梯度缓存与智能令牌选择降低算力开销；把长推理轨迹总结成“学习提要”，既能保留关键信息，又能在部署时把解码成本压下去。等模型具备稳定能力后，再将高质量题与评分蒸馏到小模型与轻量流程，为规模化上线铺路。当然，出题也有风险。奖励模型的偏见会把“标准答案”拧向错误方向；不健壮的评分标准会被“奖励黑客”钻空子；不可验证领域（如开放写作、价值判断）容易把“好问题”偷换成“好看分的套路”。解决之道是混合评估：在能验证的地方用程序化判定“不可争辩”的正确；在模糊地带用多判官、多维指标与不变性测试校准；持续引入人类小样本复核与越界审计，确保题库与评分不被单一口味绑架。如果你要搭建自己的“出题-判题-教练”系统，可以从明确任务族谱与可验证指标入手，先用程序构建一批高置信度题—解对，训练并校准一个可靠的奖励模型，再以主动学习与对抗生成不断扩展题库，最后以过程奖励把推理步骤纳入考核，并用如∇-Reasoner那样的推理时优化在关键题点上给出“带方向的追问”。归根到底，智能的形状被问题雕刻。好的出题不是刁难，而是以清晰、可验证、能拉升能力的方式，逼近我们真正关心的价值。让AI会答题并不难，难的是让它在正确的问题上持续精进。也许对人和机器都一样：成长的关键，不只是找到答案，而是不断学会问出更好的问题。

我们的大脑里，也藏着这样的导航系统吗？

当然有，而且比你想象得更酷。我们的大脑自带一套“内置GPS”：它能画地图、辨方向、量边界、估速度，甚至在你伸手去拿杯子的瞬间，实时标注手在空间中的坐标。更神奇的是，这套系统不仅导航身体，还能在抽象世界里导航思维与记忆。地图从哪里来？在颞叶深处的海马体，神经元会在你到达某个位置时精确地“点亮”，这类“位置细胞”早在上世纪就被发现；而在其上游的内嗅皮层，另一群“网格细胞”以等距网格的方式铺满空间，像在脑中铺了一张坐标纸。方向要靠“头向细胞”，告诉你面朝哪边；靠近墙壁或边缘时，“边界细胞”会提醒你“前方有界”；行动时，“速度细胞”像里程表，度量你前进的快慢。这整套组合在2014年斩获诺贝尔奖，被誉为“脑内导航系统”的核心证据。它确实存在于人类。伦敦老司机长期背线路，海马体往往更发达；阿尔茨海默病早期常“迷路”，正因为海马体与内嗅皮层先受累；一位术后双侧海马受损的患者，既认不出常见路线，也难以在医院内找到目的地。脑成像与植入电极的研究都表明，人脑同样拥有与动物相似的“位置”“网格”表征。导航不止是“带身体走对路”，还要“带手走准路”。最新的神经生理学研究在猕猴背侧前运动皮层记录到类似GPS的编码：当手位于特定空间位置时，约22%的神经元活动显著增强；只用最活跃的50个“位置神经元”，就能以约80%的准确率解码手的运动轨迹。这意味着，大脑在发出运动指令的同时，也在实时更新手在三维空间的坐标，像是在“边走边定位”。坐标系也有两套。“世界中心”坐标把你放到地图上，“自我中心”坐标以“前后左右”为参照。研究发现，外侧与内侧内嗅皮层分别偏好这两种编码；而在处理物体位置与场景变化时，“自我中心神经元”的树突甚至呈现功能聚类，像为不同场景预留了专用通道。两套坐标的协作，解释了为什么我们既能记住“这家咖啡馆在街角”（世界中心），也能迅速做出“向左一步就能拿到杯子”（自我中心）的动作决策。更有意思的是，这张“认知地图”并不只装空间。海马体里还出现“时间细胞”，按时间顺序规律放电；在决策任务中，部分神经元同时编码“我在哪儿”和“我倾向于往哪边选”。把几百个神经元的高维活动投到低维空间，会看到空间位置与决策状态像串珠一样有序排布——说明大脑把空间、时间与抽象变量“织”在一张整合的网里，用同一套座标来导航记忆与选择。如果把这套系统比作AI中的“导航”，那多巴胺的“奖赏预测误差”就像一种生物学的“梯度信号”。当现实比预期更好或更差时，误差信号会调整你的策略与路径偏好，让你下次“走在更可能得分的方向”。这并非直接告诉你具体哪一步该怎么改，而是以连贯、细水长流的方式，推动你在行为与认知的空间里“朝正确的山坡上爬”。临床与工程也在印证这幅图景。脑机接口的高分辨率微电极，已能在术中实时读取神经信号，帮助勾勒肿瘤边界，像把“神经地图”外接到医生的屏幕上；而运动皮层的“手部导航信号”正成为精准康复与神经假体控制的重要依据。所以答案是肯定的：我们的脑中不仅藏着“导航系统”，而且是一个多模态、多坐标、可塑的导航宇宙。它让我们找到回家的路，伸手不偏不倚，也在记忆与抉择的迷宫里标出出口。也许值得借鉴的不只是“有一张地图”，更是那种随经验持续更新的能力——在真实世界与心灵世界里，学会用反馈修正路径，用内在的罗盘与外在的线索对齐方向。当你下次在岔路口犹豫，不妨想想：你的大脑，早已在暗处铺好了网格，等着你迈出那一步。

新知 - 大圆镜｜给大模型装推理GPS，盲猜变精准导航

对抗知识焦虑，从看懂这条开始

App 下载

你有没有过这种经历：问大模型一道数学题，它给了三个答案，两个错得离谱，一个蒙对了——像极了闭着眼在迷宫里乱撞。过去两年，我们给大模型加了思维链、思维树，甚至让它生成一堆答案投票选最优，但本质上都是「盲猜+试错」：模型只知道「这个答案好不好」，永远不知道「怎么改才能更好」。直到德克萨斯大学奥斯汀分校的团队捅破了这层窗户纸：训练时用来精准调参的梯度下降，为什么不能直接搬到推理时用？∇-Reasoner就这么来了——它给大模型的推理过程装了实时GPS，每走一步都能收到「往哪改更对」的明确指令。

从蒙眼爬山到精准导航

你可以把大模型的推理想象成在一座「奖励山」上找最高峰：传统方法是蒙着眼睛乱走，每踩一步就摸一摸脚下的高度（奖励分数），运气好能摸到山顶，运气不好就困在半山腰的土坡上——这就是零阶优化，只看结果，不问方向。

∇-Reasoner的核心是把一阶优化搬上了山。它不再让模型瞎试，而是用奖励模型算出每一步的「梯度」——也就是「往哪个方向走，海拔会涨得最快」。比如解「2x+3=7」时，模型先写「我们首先将3」，奖励模型给了低分，梯度会直接告诉它：把「将3」改成「移项」或者「减去3」，分数会更高。

这背后的关键是「可微文本优化」（DTO）——一个把离散文本变成连续变量的魔术。你没法直接对「苹果」这个词求梯度，但可以优化它背后的「倾向性分数」（logits）。用Gumbel-Softmax直通估计器，前向传播时输出确定的词，反向传播时假装选择是连续的，这样梯度就能顺着分数流回模型，指导下一次生成。

简单说，传统方法是写完一整篇作文才给批改，DTO是老师在你写每个词时就实时说：「这个词换一下，整句话会更对」。

效率翻倍的秘密：不做无用功

听起来每一步都要算梯度，计算量岂不是要爆炸？∇-Reasoner的作者们早想到了这点，用三个妙招把成本压到了比传统方法还低。

第一个妙招是「梯度缓存」。计算梯度最耗时的是前向和反向传播，但很多时候模型选的词不会变，这时候就可以把之前算好的梯度存起来复用，不用每次都重新跑一遍——相当于老师不会重复讲同一道题。

第二个是「轨迹复用」。本来每确定一个词，都要重新生成完整的后续草稿来优化，现在如果这个词被接受，上一次生成的草稿直接就能当下次优化的起点，还设置了最多8条轨迹的上限，避免无限纠结。

第三个是「智能令牌选择」。不是每个词都值得优化：如果模型对某个词特别有把握（logits熵很低），或者梯度信号特别弱，就直接跳过，不用浪费算力——就像老师只会重点辅导拿不准的学生，好学生就让他自己发挥。

这三板斧下来，∇-Reasoner在数学推理任务上准确率提升超过20%，模型调用次数反而减少了10%-40%。在MATH-500、AIME这些硬核数学基准上，它甚至追上了需要全参数微调的强化学习方法。

被忽略的隐忧：奖励模型的暗箱

但我必须泼一盆冷水：∇-Reasoner的所有优势，都建立在「奖励模型足够靠谱」的基础上。

梯度是奖励模型给的，如果奖励模型本身有偏见——比如偏爱长答案、偏爱特定句式，甚至对某些错误视而不见——那梯度指引的方向就会完全跑偏。之前就有研究发现，奖励模型会学人类标注里的长度偏差，导致模型为了拿高分故意写冗长的废话，这就是「奖励黑客」。

更麻烦的是，目前的奖励模型大多只在数学、代码这类有明确对错的任务上好用，换到开放域对话、创意写作这种没有标准答案的场景，连「什么是好答案」都定义不清，更别说算梯度了。∇-Reasoner能让大模型在迷宫里精准找路，但如果地图本身画错了，再精准的导航也没用。

而且就算奖励模型没问题，∇-Reasoner的计算量还是比贪心解码高得多，实时对话这种对延迟敏感的场景，暂时还没法用。它更适合那些对精度要求极高、能接受一点延迟的场景——比如高级数学辅导、代码审核，而不是你手机里的聊天机器人。

∇-Reasoner最有意思的地方，是它打破了「训练」和「推理」的边界。过去我们默认，训练是一次性给模型植入能力，推理是让模型用这些能力干活；现在它证明，推理时也能像训练一样精准调优，而且不用动模型的权重。

这就像给了每个问题一个专属的「临时微调」——不用为了一道数学题，把整个模型重新训一遍。这种「样本级特调」的思路，可能才是未来大模型推理的核心：不用追求一个能解决所有问题的完美模型，而是给模型一个能针对每个问题实时优化的工具。

「推理不是用完即弃的一次性输出，而是可动态优化的过程。」当我们不再把大模型当一个只会吐答案的黑箱，而是一个能实时调整的协作伙伴，真正的通用AI可能才会离我们更近。

从蒙眼爬山到精准导航

效率翻倍的秘密：不做无用功

被忽略的隐忧：奖励模型的暗箱

评论