对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
推理能力|长链任务|大型推理模型|DeepSeek-R1|OpenAI o1|大语言模型|人工智能
想象一位才华横溢的短跑冠军,他能在百米赛道上风驰电掣,打破记录。但如果将他置于一场42公里的马拉松赛道上,他很可能在第一个补给站前就精疲力竭,轰然倒下。这正是当前人工智能(AI)领域正在上演的迷人又令人不安的一幕。
以OpenAI的o1、DeepSeek-R1为代表的大型推理模型(LRMs),就像是这些短跑天才。它们在解决独立的、单步的难题时展现出惊人的能力,无论是解答复杂的数学题,还是编写精妙的代码,其表现都足以让世界瞩目。然而,当现实世界向它们抛出一个需要环环相扣、步步为营的“长链任务”时——比如连续调试相互依赖的软件模块,或基于前序定理推导后续结论——这些“天才”却集体遭遇了一场“智力雪崩”。
这场雪崩并非危言耸听,而是一个被精确量化的“推理悬崖”。这个词,源自2025年10月22日,由复旦大学自然语言处理实验室与美团LongCat团队联合发布的一项名为“R-HORIZON”的开创性研究。这项研究,如同一面高精度的“思维显微镜”,首次系统性地揭示了全球顶级AI模型在长距离思考中的真实能力边界,并提出了跨越这一边界的可能路径。
由陆毅、郭林森、王嘉宁等核心成员组成的LongCat团队,敏锐地意识到,当前所有主流的AI评测基准,如MATH500,都像是在考核短跑,它们的问题孤立且互不关联。模型只需“回答一个问题,然后结束”。但这与真实世界的需求背道而驰。
为了模拟真实世界的复杂性,团队提出了一种简洁而强大的方法——“问题组合”(Query Composition)。他们巧妙地将多个独立问题串联起来,让前一个问题的答案,成为后一个问题的条件。这就像是为AI精心设计了一条充满挑战的马拉松赛道,模型必须按顺序、无差错地跑完全程,才能到达终点。
基于此,他们构建了R-HORIZON评测基准,并对超过20个全球主流的推理模型进行了“极限测试”。结果令人震惊:所有模型,无一例外,都出现了性能的断崖式下跌。其中,表现优异的DeepSeek-R1模型,在单个AIME数学竞赛问题上准确率高达87.3%,堪称学霸;然而,当面对仅仅5个相互关联的组合问题时,其准确率竟暴跌至24.6%,瞬间沦为“学渣”。
这道“推理悬崖”冷酷地宣告:当前AI的强大,很大程度上是一种“单点式”的强大。它们拥有惊人的知识和计算能力,却缺乏将这些能力串联起来,进行持久、连贯思考的“智力耐力”。
发现问题只是第一步,更重要的是诊断病因。R-HORIZON团队通过深入的机制分析,揪出了导致AI“半途而废”的三大核心瓶颈:
有效推理长度受限:就像人类的短时记忆有容量限制,AI的“思维链路”也有一个有效长度。一旦问题链超过这个长度,错误率便会急剧上升。研究发现,70亿参数模型的“记忆”范围大约在4000-6000个词元(tokens),而更大的320亿参数模型也只能扩展到8000-10000个词元。这说明,单纯增大模型规模,只能缓解问题,无法根治。
反思机制高度局部化:聪明的解题者不仅会计算,更会反思。然而,AI的反思行为却表现出惊人的“短视”。它们或许会检查当前步骤的计算是否正确,但几乎从不进行“长程反思”——即回顾几步之前的前提是否可靠,整体策略是否需要调整。超过一半的复杂任务中,模型完全缺乏这种跨步骤的全局审视能力。
思考预算分配失衡:这是最令人意外的发现。所有模型,包括顶级模型,都像一个不懂得合理分配体力的赛跑者。它们倾向于在任务的早期阶段投入过多的“思考资源”(生成过多的tokens),导致在后续更关键、更复杂的步骤中“后继乏力”。这种“头重脚轻”的思考模式,严重影响了整个推理链的完成质量。
这三大瓶颈共同描绘了一幅AI的“思维困境”画像:一个记忆短暂、目光短浅、且不懂得规划精力的“偏科天才”。
诊断的最终目的是为了治愈。R-HORIZON项目最激动人心的部分,在于它不仅搭建了“诊断台”,更开出了“药方”。
团队利用他们创造的长链推理数据,结合一种名为GRPO的强化学习算法,对模型进行了一场特殊的“耐力训练”。其核心思想简单而深刻:要想让模型学会跑马拉松,就必须让它在马拉松赛道上进行训练。
实验结果带来了双重惊喜。首先,经过长链数据训练的模型,在多步推理任务上的表现大幅提升。以AIME24评测为例,使用两个问题组合进行训练后,模型在两步任务上的得分暴涨17.4分。更令人振奋的是,这种训练不仅提升了“长跑”能力,连“短跑”成绩也随之增强——在单问题场景下,模型得分同样提升了7.5分。
这证明,长链推理训练并非简单的“刷题”,而是从根本上重塑了模型的推理机制。训练后的模型,展现出脱胎换骨的变化:
AI不再仅仅是一个被动解题的计算器,它开始学习如何成为一个有策略、有规划的思考者。
R-HORIZON的问世,标志着AI研究范式的一次重要转变——从关注模型能解决“多难”的单点问题,转向探索它能在一条逻辑链上“走多远”。这不仅仅是技术层面的突破,更触及了我们对“智能”定义的深层思考。
在真实世界中,无论是推动科学发现、管理复杂的供应链,还是开发下一代软件系统,成功的关键都不在于一次性的灵光乍现,而在于持续、连贯、有目标的深度思考。长链推理能力,正是AI从一个“聪明的工具”进化为“可靠的智能体(Agent)”所必需的核心素质,是通往通用人工智能(AGI)的必经之路。
复旦与美团的这项研究,如同一位探路者,为我们绘制了当前AI能力的边界地图,指出了前方的悬崖与险滩,更重要的是,它亲手搭建了一座桥梁,并开源了所有的设计图纸与建造工具。它邀请全球的研究者一同上路,共同推动AI跨越眼前的“推理悬崖”,去探索那片更广阔、更深邃的“能力地平线”。
这场关于AI思想的马拉松才刚刚开始,而我们,正站在一个全新的起跑线上,见证着智能的内涵被一次又一次地重新定义。