对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
复杂任务执行|视频理解|多模态推理|开源模型|AI智能体|人工智能
你对着手机里的AI助手,播放了一段几十分钟的旅行视频,然后下达了一个看似简单的指令:“视频里导游提到了电影《福禄双霸天》中的一座桥,请告诉我这座桥的名字,以及在1979年电影开拍时,它已经建成了多少年?”
一阵沉默后,AI可能只能识别出“桥”和“电影”,然后给出一个文不对题的网页链接。它能“看”到画面,也能“听”到声音,但它无法像人类一样,将视觉线索(桥的样貌)、听觉信息(导游的解说)、常识(电影年代)和行动(主动搜索桥的建造年份)串联起来,完成一个需要跨越多重步骤的推理任务。

这就是当前AI最致命的“阿喀琉斯之踵”:它们拥有强大的感知能力,却普遍缺乏长程推理和熟练使用工具的“思考”能力。它们更像是被动的信息处理器,而非能够主动解决问题、具备“看、听、想、用工具”全方位能力的通用助手。然而,一场旨在弥补这一鸿沟的变革,正悄然发生。
2026年2月27日,中国人民大学联合小红书、东南大学、浙江大学和清华大学的研究团队,向AI界投下了一枚重磅“炸弹”:一个名为 OmniGAIA 的全新评测基准,以及一套名为 OmniAtlas 的配套“训练秘籍”。
这不仅仅是一次普通的学术发布,它更像是一场专门为“全模态AI智能体”设计的“高考”。这场考试有多难?
这场残酷“大考”的成绩单,揭示了一个惊人的现实:最强的闭源模型Gemini-3-Pro,一次通过率高达62.5%,而最强的开源模型Qwen-3-Omni,得分仅为13.3%——两者之间存在着近乎4.7倍的巨大“智能鸿沟”。更令人震惊的是,一个参数量高达5600亿的巨型模型,表现甚至不如一个30B的小模型。这无情地证明了,在通往通用智能的道路上,“大力出奇迹”的时代已经过去,优秀的“思考策略”远比单纯的参数堆砌更重要。
为何开源模型会兵败如山倒?研究团队通过对失败轨迹的“解剖”,找到了病根所在。在那些高难度任务中,开源模型高达90%以上的失败,都源于一个共同的原因:没有正确使用工具。
它们的行为模式暴露了AI的几种典型“病症”:
更深层次的原因在于,当前大多数AI的感知和推理是割裂的。它们要么使用“外挂”的感知工具,就像给一个盲人配上一个只能报数的探测器,信息在传递过程中严重失真,无法进行复杂的跨模态推理。实验证明,对于强大的模型,原生全模态融合才是王道,它能确保信息流的完整与连贯,是拔高AI智能上限的唯一正解。
揭示问题只是第一步,解决问题才是关键。OmniAtlas正是研究团队为开源社区开出的一剂“良方”,它包含三大核心“杀手锏”,旨在系统性地教会AI如何像人一样思考和行动。

高质量轨迹合成:学习“冠军的思考路径” 如何让AI学会完美的推理步骤?团队采用了一种名为“后见之明引导的树探索”的方法。简单来说,就是在已知正确答案的前提下,反向推导出一条从问题到答案的“完美思考路径”,并剔除所有错误的分支。在训练时,只让模型学习这条“思考+工具调用”的成功轨迹,从而让模型真正学会“如何思考”,而不是被工具返回的冗长噪音所干扰。
OmniDPO细粒度纠错:为AI的思维链做“微创手术” 全模态任务极易“一步错,步步错”。OmniDPO技术就像一个高精度的诊断工具,它能精准定位到失败推理链中的“第一个错误点”——究竟是没看清、听漏了,还是搜索关键词用错了?然后,它会生成一个修正后的正确开端,构建“正负样本对”进行优化。这种“对症下药”的方式,实现了真正的细粒度纠错。

这套“组合拳”的效果立竿见影:经过OmniAtlas优化的Qwen-3-Omni模型,准确率从13.3%暴涨至20.8%;在较小的7B模型上,性能更是提升了近4倍。这证明,正确的训练方法,能够有效弥合开源模型与顶尖商业模型之间的差距。
看得清、听得懂只是起点,会思考、善用工具、能行动,才是迈向通用人工智能(AGI)的试金石。OmniGAIA和OmniAtlas的工作,不仅揭示了当前AI的技术瓶颈,更为未来指明了方向。
研究团队认为,通往真正原生全模态AI助手的道路上,有三大黄金赛道值得探索:
从被动的“聊天机器人”到主动的“问题解决者”,AI的进化之路正迎来一个关键的转折点。OmniGAIA的“考题”已经摆在所有从业者面前,而OmniAtlas则提供了一份极具潜力的“解题思路”。这场关于“思考”的革命,才刚刚开始。