当AI学会思考和动手，离科幻还有多远？

想象一位会“看、听、想、查资料、拿工具”的助手：他一边看着长达几十分钟的视频、听讲者的语音线索，一边在网上核对桥名与建成年份，最后给出计算后的答案。这不是科幻电影的桥段，而是全模态智能体正在攻克的现实难题。过去一年里，“会思考”的突破来自原生全模态与工具使用的合流。新发布的OmniGAIA把评测从“看图说话”拉回真实世界：360个跨地理、历史、科技等领域的高难任务，要求模型在长视频、图像与音频之间建立事件链条，并多次调用搜索、浏览和代码工具给出唯一可验证答案。它背后的“全模态事件图谱”管道把ASR、OCR、说话人识别与环境理解织成证据网，逼迫模型像人一样“先感知、再推理、再验证”。配套的OmniAtlas则给出训练“秘方”：主动感知精确抽帧与裁剪，让模型“指哪看哪”；用后见之明的树探索合成高质量“思考+工具”轨迹，并用掩码监督只教模型该如何思考和行动；再用OmniDPO定位“第一处错误”，对症纠偏。数据开口说话：在统一工具环境下，顶尖闭源模型一次通过率达62.5%，而开源基线仅13.3%；但当加入OmniAtlas的策略学习，开源模型跃升至20.8%。失败剖析更直白——90%以上的错不在“不会看”，而在“不会用工具”：要么不调工具、要么在错误方向上低效重复。还有一个耐人寻味的现象被量化了：工具“冷漠症”几乎注定失败，而“滥用症”同样无效，真正有效的是以验证为核心的主动探索策略。更关键的是，原生全模态显著优于外挂感知API：强模型的原生融合不仅更准，连调用次数都更省，这意味着模态间内在耦合是推理上限的关键。 “动手”的战场正在现实落地。具身智能与人形机器人从秀肌肉转向拼“大脑”：零售服务店、影院运营、模块化服务空间的连续部署，让智能体从实验室走向柜台与产线。产业侧加速筑路：国家层面的标准化委员会落地并布局环境感知、作业与安全等核心标准；部件接口标准把通用件成本拉低三成以上；共享数据集把模型训练成本砍去七成。出货量与订单增长，映射的是硬件走向可用、软件走向可控的临界点。离科幻还有多远？还隔着几道“认知鸿沟”。一是常识与因果，模型仍容易在长程规划中迷失方向；二是泛化与记忆，跨场景不忘旧知仍难；三是具身鲁棒性，在人群与复杂工况中误触与延迟带来的微小误差会被不断放大；四是成本与标准化，决定能否从样机走向规模。研究前沿也在对症开方：UNO-Bench揭示多模态并非“简单相加”而是“短板决定上限”的组合律；RBench-V把视觉推理短板照得更亮；面向科学场景的SFE提醒我们，AI在高难专业任务上仍需更好的证据链。下一步，强化学习让智能体在真实反馈中学策略，MCP工具生态扩展可操作世界的“手”，而世界模型与记忆体系则为长程计划与自我修正提供“脑回路”。所以答案也许是：离科幻不再遥远，但真正的距离不在参数量，而在是否学会“用证据改变自己”。当AI既能把看与听熔成理解，又能把思考变成行动，并在失败处精准回溯、在不确定中主动试探，我们得到的将不是取代人的机器，而是与人协作的同事。科幻的意义，从来不是预言机器何时超越人类，而是提醒我们——当工具也能“思考与动手”，人类将把时间腾给更像人的事：提出更好的问题，追求更远的可能。

当AI比你记性还好，你该信谁？

想象你的大脑像一位富有诗意的讲述者，会把片段拼成故事；而旁边的AI像一位不知疲倦的图书管理员，能在浩瀚资料中迅速翻到原页。一个会添枝加叶，一个擅长逐字逐句。当AI比你记性还好，你该信谁？这不是选择题，而是方法题。人类记忆从来不是摄像机。神经科学早已表明，记忆在提取时会进入再巩固期，轻轻一触就可能被新信息“改写”，这也是为什么我们会把新学到的细节错当成旧回忆。海马和皮层的反复再激活为我们织就语义与情景的网络，但也埋下虚假记忆的可能。与此相对，新的智能体记忆范式开始像“即时编译”：既保存原始页面，又用索引与检索把最相关的证据端上台面。类似GAM的架构让AI在需要时深度搜索与反思，尽可能减少“二次转述”的走样。可别把“记得住”误当成“判断准”。在覆盖视频、音频、图像与外部搜索的真实任务上，评测显示AI要想“看、听、想、用工具”一个都不能少。面向长视频与复杂跨模态推理的新基准揭示了一个冷事实：即便是最强的闭源模型，在开放式问题上的一次通过率也只到六成出头；而开源模型大量失误并非“记不得”，而是“不会用工具”——要么不调用，要么在错误方向上反复检索。这提醒我们：你该信谁，首先取决于它如何获取证据、如何行动，而不只是它“记住了什么”。当AI给出答案时，最值得信的不是它的语气，而是它的可验证性。让它展示感知与检索的“指哪看哪”的路径：具体的视频时间段、音频转写片段、图像裁剪区域、搜索与比对的关键线索。原生全模态的感知往往比外挂式“识图/听音”更稳，在硬仗里尤其如此；如果它无法给出清晰的取证轨迹，你就该把置信度打折。反过来，当问题是“我三年前在谁的婚礼上说了那句祝词”，AI若没有你的原始相册、聊天与日程，它的“好记性”就无米可炊，你的亲历与留痕才是根。别忽视互补的力量。有人机互补研究指出，最有效的AI不是处处主导，而是在你不确定、容易出错的环节给出选择性建议。把它当研究员而非裁判员：你提问，它规划检索、汇总证据、报告不确定性；你做最后一锤定音。尤其在司法、临床、教育等高风险领域，更要坚持“双重锁”——独立证据与交叉验证。顺带提醒自己：长期把“思考外包”给AI，会让人类的批判性与记忆肌肉逐步退化，这已被多项研究示警。要把“信谁”做成可执行的日常习惯，不妨从三点开始。让证据说话：要求可复核的摘录、时间戳与比对理由，少听“结论腔”。让流程透明：看清它用了哪些工具、改了哪些搜索词、为何放弃某条线索。让任务分层：个人经历优先人类与原始留痕，公共事实优先能检索并给出证据的AI，复杂跨模态问题则采用“你取证我裁决”的配合。再进阶一点，把你的资料库做成“页-索引”双轨外脑：原文保全，索引提要，AI当研究者，人当编辑与署名者。展望不远的将来，随着全模态智能体在主动感知、工具编排与强化学习上的跃迁，AI会更像一个能看能听能做的合伙人。但真正该被信任的，从来不是某一方的记性，而是我们共同遵守的求真流程：证据优先、透明可核、承认不确定、允许纠错。当你与AI一起，把每一次回忆与判断都当作可复现的研究，小心而开放，谨慎而勇敢，你们就不必争“谁更会记”，而会在更大的真相里，彼此成全。

AI也会“钻牛角尖”吗？

当然会，而且有时比人更“执拗”。想象一下：一个代码助手在同一个报错上反复改来改去；一个搜索智能体不停刷新网页却不换关键词；一个“会思考”的大模型越写越长，答案却离真相越来越远——这就是AI版的“钻牛角尖”。在可观测证据上，这一现象并不稀奇。针对长程推理的研究发现，当让大型推理模型把“思考链”拉长，准确率反而会下降：有的模型被无关信息牵走注意力，有的过度拟合题目框架，有的从合理先验滑向虚假关联，几乎所有模型在长链执行中都更难保持专注。这种退化还伴随“自条件化效应”——一旦早期犯错，错误会像雪球一样在后续步骤里被自己反复引用，越走越偏。好消息是，具备“思考”机制的模型对这种失稳更抗打：它们能在更长的执行序列里保持精度，更接近“先计划—再执行—再复盘”的人类工作流。把视角移到真实任务，更能看清“牛角尖”的轮廓。全模态智能体评测表明，复杂任务里的失败，大多不是“不会”，而是“走错路”：超过九成的错误源自工具使用不当——要么“工具冷漠”，干想不查证；要么“工具过勤”，同样的搜索来回折腾十几次，却没有新的证据。更糟的是，一旦第一步看错图、听漏词或关键词取错，后面就会“步步错”，形成经典的兔子洞螺旋。为什么会卡住？原因往往很朴素：上下文供给不足、目标定义含糊、错误的任务分解、甚至分词器对数字的小数部分切分不合理，都会把模型推向错误的轨道。当你与AI协作编程，看到它不断重复近似但同样有bug的补丁、需要你一遍遍贴同一个报错、代码质量越来越差——这就是显著的“兔子洞信号”。要让AI少钻牛角尖，经验和新技术都在给出破解之道。有效的做法是强制引入“计划—执行—验证”的闭环：先让模型写出假设与证据需求，再分步调用工具，关键结论必须外部校验，计算与来源要自证；限定搜索或调用次数，超过阈值就触发反思而非继续堆操作；对失败进行“第一错误点”定位，纠正早期岔路，避免把力气花在错路径的打磨上。实践还表明，主动感知和聚焦能力极其关键：与其粗暴降采样把信息糊成一团，不如让模型“指哪看哪、听哪”，在长视频和高清图中精确取证，减少无谓干扰。在训练范式上，“后见之明引导的轨迹合成”、“只监督思考与动作而屏蔽嘈杂工具回传”、以及偏好优化中对细粒度错误的成对纠正，都是让模型学会“怎么想、何时停、为何证”的有效手段。再配合自我反思框架——由行动者生成方案、评估者打分、反思模块给出改进线索——以及结合外部验证与多路径搜索的树式探索，智能体从被动堆步数，转向主动控节奏。工程侧的守护同样重要：为工具调用加上错误捕获、回退与剪枝策略，避免模型被异常回执牵着鼻子走；必要时换一个“思考型”模型，或退回到一个干净、可复现的最小案例，用更精确的指令重新对齐问题。你或许会问：AI既然聪明，为什么还会迷路？答案耐人寻味。智能并不意味着无穷无尽的深挖，而是知道何时停下、如何求证、愿意承认“不知道”。人和机器都一样：真正的智慧，不在于把同一堵墙撞得更用力，而在于抬头看看，是不是该换一扇门。愿我们与AI的协作，少一点自以为是的加速，多一分面向真相的耐心与方法。

AI高分通过测试，就等于理解世界了吗？

如果把智能比作一张“通关地图”，拿到高分只是点亮了几盏路灯，并不等于你已经走通了整座城市。考试房间里，题目干净、线索齐全；真实世界里，信息嘈杂、模态交织、线索残缺，还要一边走一边找工具。AI在分数上耀眼，究竟是“会考试”，还是“懂世界”？这是当下最值得追问的一道题。理解世界，意味着能把看到的、听到的、读到的揉成一个一致的图景，沿着长长的推理链条做出判断，碰到不确定就主动找资料、用工具、再验证。传统评测常把难题切成小块，比如几秒钟的视频、单张图片、多项选择题，结果容易把“识别得准”误当成“理解得深”。新的全模态基准专门盯上这点：把任务换成几十分钟的视频外加音频、再要求模型跨模态锚定事件、上网查证、计算出唯一可核实的答案。当问题从“看图说话”升级为“看、听、想、搜、用、核”一条龙，谁真的理解，立见分晓。有了这样的“硬仗”，数据也给出清晰信号。在同一套工具环境下，最强闭源模型的一次通过率超过六成，而强势开源模型只有十多分之一。参数堆到千亿并没有自动带来理解力，反而暴露了策略的短板：失败轨迹中，九成以上不是“看不清”“听不见”，而是“工具不会用、方向找不对、验证没做全”。更有意思的是，原生的全模态融合比外挂识图听音更靠谱：当感知是模型体内的“本能”，跨模态的推理链更短、更稳；一旦把感知砍出去做成外部API，复杂题目上分数和效率双降。这些都说明，真实世界理解依赖的是“统筹调度与可验证的过程”，而不只是堆知识点。当然，进步也在发生。把主动感知、成功轨迹合成、细粒度纠错引入训练后，同一模型的通过率大幅跃迁，小模型甚至实现数倍提升。这种“教会模型先看哪、再想啥、用什么工具、错在哪”的过程监督，逼它把“会做题”变成“会做事”。与此同时，其他评测也在给出侧写：有的揭示全模态能力不是简单相加，而更像“短板乘积”；有的专挑视觉推理的坑，让模型在多步逻辑上原形毕露；还有面向高难科学认知的考试，考的是跨学科深度整合。它们共同在强调一个事实：高分可以是真能力的投影，也可能是分布熟悉度的假象，想论证“理解”，得看更像世界的试卷。 “理解世界”的证据链并非单向。今天的模型能写出透明的推理过程，能在数学与编程上追平甚至超越不少人类专家，神经表示里也出现了与人类相似的概念结构。这些都可喜。但同一条证据链里，也埋着荆棘：一句话改写就让答案崩塌，基础数值比较会犯错，长对话中前后打架，缺少校准意识时还会自信地胡说。强化学习若只奖结果不奖过程，会把“走捷径”当成“会思考”，看似高分，实则脆弱。一些研究还发现，推理链越长不一定越准，探索与确定性之间需要被精心调谐。这些现象提醒我们：分数不是目的，稳定、可验证、可迁移的能力建设才是王道。所以，AI高分通过测试，并不自动等于理解世界。它更像一张能力快照，取景框里有亮点，也有盲区。要把“会考试”升级为“懂世界”，路径日渐清晰：让感知与语言原生融合，把主动感知做成习惯；把工具当成延展心智的手臂，学会规划、验证与反思；让评测从任务导向转向能力导向，考过程、考鲁棒性、考出分布外的泛化；把学习环境拉近现实，引入具身交互与真实反馈，让“纸上推理”落到“世界中行动”。也许真正的理解，不是一次满分，而是一种面向不确定性的姿态：能提出好问题，敢承认不知道，会去找证据，肯修正路线。人类的智慧就是这样长成的。让我们要求AI也朝这个方向进化——看得清、听得懂、想得深、用得对、证得了。而在这条路上，人机共学：我们提供边界与价值，它贡献工具与洞见。分数会过期，探究不落幕；对世界的理解，永远是在路上。

给AI一张老照片，它能复原你的童年吗？

一张发黄的老照片，AI能把它洗得发亮、让眼睛眨一下，甚至拼出“从三岁到十八岁”的成长短片。像不像一台口袋时光机？它确实能让模糊的你再次清晰，也能把静止的笑容“动”起来—but，它复原的究竟是“童年”，还是只是“照片里的童年”？从技术上看，AI已相当能打。去噪和修复能抹平划痕、裂口；超分辨率把几十KB的小图放大到可海报级印刷；上色模型根据纹理与光照推断出自然肤色与衣料质感；人脸增强则补全细节，让五官立体可辨。一些团队用这套流程修复了上千张走失儿童照片，清晰的人脸帮助社会动员；也有人把静态婚纱照做成轻微点头、眨眼的纪念短视频，重逢的情绪因此有了依托。就“影像复原力”而言，AI已能在秒级完成过去需要专业修图师反复细修的活儿。但“复原你的童年”是更难的命题。单张照片提供的信息极其有限，AI会用统计与先验去“补”，头发的颜色、衣料的纹理、背景的年代感都可能被合理却不真实的细节替代。视觉上的“似曾相识”，不等同于历史的“原封不动”。即便加上动态化，眨眼、微笑的轨迹是算法的平均范式，不是你当年的独特神情。评价图像质量的PSNR、SSIM再高，也不代表“更像那个人”。如果你期待更像“你”的童年，数据越丰富越好：不同年龄与角度的多张照片、当年的场景参照、家人的口述记忆，甚至短语音都有帮助。如今约一分钟的语音即可合成相似音色，但情绪与表达习惯的还原仍需更长、更干净的数据与针对性训练。越多维度的材料，AI越能从“修图”走向“塑像”；否则，它只能给出一份漂亮的猜测。边界也需要尊重。涉及他人肖像与声音，必须取得本人与近亲属授权；深度合成内容应明确标识，保护隐私与防止误导。同样重要的，是心理层面的节制：AI影像能缓解思念，也可能把人困在回忆的回声里。把它当作与过去对话的桥，而非停驻其上的房。想要一版更可靠的“童年重现”，不妨做三件小事：用高分辨率扫描保留底片级细节；分步进行修复、上色、放大并随时对照原件，避免被算法过度“美颜”；对军装、校徽、街景等关键要素，参考史料或请教熟悉当年的长辈。技术负责让像素清晰，真实需要你来把关。归根到底，AI能修复的是影像，帮我们更清楚地看见曾经；而童年的气味、笑声与勇气，则活在你今天的选择里。与其只向后“复原”，不如也向前“创造”——把新的光，照进正在发生的当下。

新知 - 大圆镜｜AI智能体鸿沟惊现：开源模型为何惨败4.7倍？

对抗知识焦虑，从看懂这条开始

App 下载

开场：AI的“阿喀琉斯之踵”

你对着手机里的AI助手，播放了一段几十分钟的旅行视频，然后下达了一个看似简单的指令：“视频里导游提到了电影《福禄双霸天》中的一座桥，请告诉我这座桥的名字，以及在1979年电影开拍时，它已经建成了多少年？”

一阵沉默后，AI可能只能识别出“桥”和“电影”，然后给出一个文不对题的网页链接。它能“看”到画面，也能“听”到声音，但它无法像人类一样，将视觉线索（桥的样貌）、听觉信息（导游的解说）、常识（电影年代）和行动（主动搜索桥的建造年份）串联起来，完成一个需要跨越多重步骤的推理任务。

这就是当前AI最致命的“阿喀琉斯之踵”：它们拥有强大的感知能力，却普遍缺乏长程推理和熟练使用工具的“思考”能力。它们更像是被动的信息处理器，而非能够主动解决问题、具备“看、听、想、用工具”全方位能力的通用助手。然而，一场旨在弥补这一鸿沟的变革，正悄然发生。

一场残酷的“大考”：OmniGAIA基准的诞生

2026年2月27日，中国人民大学联合小红书、东南大学、浙江大学和清华大学的研究团队，向AI界投下了一枚重磅“炸弹”：一个名为 OmniGAIA 的全新评测基准，以及一套名为 OmniAtlas 的配套“训练秘籍”。

这不仅仅是一次普通的学术发布，它更像是一场专门为“全模态AI智能体”设计的“高考”。这场考试有多难？

超纲的题型：OmniGAIA包含360个源自真实世界的高难度任务，横跨地理、历史、科技等9大领域。输入不再是简单的图文，而是长达数十分钟的“视频+音频”或复杂的“图片+音频”组合。
开卷，但更难：模型被允许使用搜索引擎、浏览器、代码解释器等外部工具，但答案必须是唯一且可验证的开放式结果。这意味着，AI不能靠“蒙”，必须像侦探一样，通过多轮工具调用，层层推理，才能找到最终答案。

这场残酷“大考”的成绩单，揭示了一个惊人的现实：最强的闭源模型Gemini-3-Pro，一次通过率高达62.5%，而最强的开源模型Qwen-3-Omni，得分仅为13.3%——两者之间存在着近乎4.7倍的巨大“智能鸿沟”。更令人震惊的是，一个参数量高达5600亿的巨型模型，表现甚至不如一个30B的小模型。这无情地证明了，在通往通用智能的道路上，“大力出奇迹”的时代已经过去，优秀的“思考策略”远比单纯的参数堆砌更重要。

失败剖析：AI到底错在了哪一步？

为何开源模型会兵败如山倒？研究团队通过对失败轨迹的“解剖”，找到了病根所在。在那些高难度任务中，开源模型高达90%以上的失败，都源于一个共同的原因：没有正确使用工具。

它们的行为模式暴露了AI的几种典型“病症”：

“工具冷漠症”：面对难题，完全不调用工具，试图仅凭“脑内”知识硬扛，结果自然是惨败。
“工具滥用症”：反复调用工具超过10次，却始终在做低效、重复的无用功，陷入“搜索死循环”，无法有效解决问题。

更深层次的原因在于，当前大多数AI的感知和推理是割裂的。它们要么使用“外挂”的感知工具，就像给一个盲人配上一个只能报数的探测器，信息在传递过程中严重失真，无法进行复杂的跨模态推理。实验证明，对于强大的模型，原生全模态融合才是王道，它能确保信息流的完整与连贯，是拔高AI智能上限的唯一正解。

训练秘籍：OmniAtlas如何教AI“学会思考”

揭示问题只是第一步，解决问题才是关键。OmniAtlas正是研究团队为开源社区开出的一剂“良方”，它包含三大核心“杀手锏”，旨在系统性地教会AI如何像人一样思考和行动。

主动全模态感知：从“全景模糊”到“精准聚焦” 传统的AI在处理长视频或高清图时，就像戴着一副高度近视镜，只能看到一团模糊的降采样信息，大量细节丢失。OmniAtlas赋予了模型“指哪看哪、听哪”的特技，通过内置工具，AI可以主动截取视频的关键几秒，或放大图片的特定区域，实现高保真的“按需感知”。

高质量轨迹合成：学习“冠军的思考路径” 如何让AI学会完美的推理步骤？团队采用了一种名为“后见之明引导的树探索”的方法。简单来说，就是在已知正确答案的前提下，反向推导出一条从问题到答案的“完美思考路径”，并剔除所有错误的分支。在训练时，只让模型学习这条“思考+工具调用”的成功轨迹，从而让模型真正学会“如何思考”，而不是被工具返回的冗长噪音所干扰。
OmniDPO细粒度纠错：为AI的思维链做“微创手术” 全模态任务极易“一步错，步步错”。OmniDPO技术就像一个高精度的诊断工具，它能精准定位到失败推理链中的“第一个错误点”——究竟是没看清、听漏了，还是搜索关键词用错了？然后，它会生成一个修正后的正确开端，构建“正负样本对”进行优化。这种“对症下药”的方式，实现了真正的细粒度纠错。

这套“组合拳”的效果立竿见影：经过OmniAtlas优化的Qwen-3-Omni模型，准确率从13.3%暴涨至20.8%；在较小的7B模型上，性能更是提升了近4倍。这证明，正确的训练方法，能够有效弥合开源模型与顶尖商业模型之间的差距。

迈向通用AI助手：未来的黄金赛道

看得清、听得懂只是起点，会思考、善用工具、能行动，才是迈向通用人工智能（AGI）的试金石。OmniGAIA和OmniAtlas的工作，不仅揭示了当前AI的技术瓶颈，更为未来指明了方向。

研究团队认为，通往真正原生全模态AI助手的道路上，有三大黄金赛道值得探索：

全模态智能体强化学习 (Agentic RL)：让AI在真实的全模态反馈中，像人类一样通过试错来直接优化长期的决策策略。
全模态MCP生态：为AI智能体打造一个可无限扩展的“工具箱”，接入更多的应用程序和服务，让它能做的事情越来越多。
全模态具身智能 (Embodied Agents)：将拥有“全模态大脑”的智能体放入机器人体内，让它们进入物理世界，完成真实世界的交互任务，最终成为我们生活中的全能助手。

从被动的“聊天机器人”到主动的“问题解决者”，AI的进化之路正迎来一个关键的转折点。OmniGAIA的“考题”已经摆在所有从业者面前，而OmniAtlas则提供了一份极具潜力的“解题思路”。这场关于“思考”的革命，才刚刚开始。

开场：AI的“阿喀琉斯之踵”

一场残酷的“大考”：OmniGAIA基准的诞生

失败剖析：AI到底错在了哪一步？

训练秘籍：OmniAtlas如何教AI“学会思考”

迈向通用AI助手：未来的黄金赛道

评论