AI“看”不懂视频，未来谁是AI的翻译？

短答案是：未来的“翻译”不是某个更大的模型，而是一套把视频“编译”为可推理符号的中间语言与其生产者。这一“视频中间语言”（Video IR）把镜头、对象轨迹、动作与因果、声音事件和高质量字幕按时间戳对齐，输出可核验的事实与证据链，供大模型稳态推理，而非临场猜测。谁来当这位“同声传译”？首先是平台与操作系统侧的系统级多模态索引——自动生成对齐字幕、镜头/场景切分、对象与角色长轨、音频事件与说话人分离，让LLM以函数式接口按时间段取证。其次是行业数据持有者把领域本体（战术、术式、规程）灌入事件图；最后由人机协作标注与合成数据补齐长尾与极端场景。这三股力量把“看不懂”的连续信号，翻译成“推得动”的结构化语义。如何确认这位“翻译”称职？用组级非线性评分和Non-Lin/Acc比值做质检，只认可组内一致、证据可溯的答案。一个清晰信号已经出现：当有高质量字幕与结构锚点时，“Thinking”才显著增益——也就是说，最好的AI“翻译”，就是把视频先说清楚、再想明白。

AI的视频理解力，还不如一只黑猩猩？

要看在哪儿比。在“纯视觉、无字幕、考时序与因果”的场景里，说当前最强视频大模型不如一只受训黑猩猩，并不夸张：模型在组级一致性上刚过“及格线”，一旦缺少文本锚点就频繁断链；而黑猩猩在遮挡追踪、工具—结果因果、意图识别等灵长类经典范式中表现稳定，具备连续感知与短时工作记忆的天然优势，这正是视频理解的地基。但若比“面更广”的识别与检索——成千上万类别标签、读字幕、跨文档检索、长上下文汇总——AI远超黑猩猩。问题在于：会“看见词”和会“看懂事”不是一回事。要翻盘，模型需要摆脱文本拐杖，引入事件中心的时序记忆、音画联合对齐与直觉物理约束，并在无字幕、遮挡、跨镜头的生态化基准上学与测。

让AI三思而后行，为何反而会“犯傻”？

因为“思考”是语言先验在自圆其说。证据不足时，长链推理会用熟练的文字把不确定变成肯定：视觉里那些不可言说的细节（边缘微差、连续轨迹、遮挡结构）被离散成词语后丢失，模型便用语义捷径补洞，生成看似严密的“精致化胡说”。一步错、步步错；若每步正确率小于1，链条越长，复合错误概率越高。机制上还存在“注意力错配”：提高思考级别多花在写过程上，而不是增添新证据——帧检索没变、时序核查没做，Level1的信息聚合一旦偏了，后面的Level2/3越想越偏。再叠加CoT与RLHF的训练偏好（过程可读性被奖励而非可证性）、合成思维链噪声、解码长度与温度上升带来的幻觉放大，“三思”自然更易“犯傻”。只有当推理被证据牵引时它才有益：先取证后推理、用可检查的中间表征（轨迹/计数/遮挡图）替代纯文字过程，并在缺少字幕等文本锚点时收敛推理深度，否则就是“把不可靠的信息想得更像真的”。

新知 - 大圆镜｜AI视频理解分差近半，新评测戳破分数泡沫

对抗知识焦虑，从看懂这条开始

App 下载

打开短视频APP，AI能精准识别你爱看的美食教程；刷到科普视频，它能秒懂知识点给你推同类内容——你可能以为，AI已经能像人一样“看懂”视频了。但南京大学傅朝友团队和Google Gemini评测团队联手，用一套新评测体系戳破了这个幻觉：当前最强的商用AI模型，在视频理解上的真实得分只有49.4，而人类专家能拿到90.7。更扎心的是，那些让我们以为AI在进步的高分，很大程度上是“蒙对的”。为什么会有这么大的差距？这套新评测到底发现了什么？

三层体系：把视频理解拆成“真功夫”

你可以把视频理解看成一场三层闯关游戏——过去的评测只看最后有没有通关，不管你是靠真本事还是蒙混过关，而这套叫Video-MME-v2的新体系，要一层一层检查你到底会不会。

第一层是“信息检索与聚合”，相当于让AI从一堆散落的拼图里，准确找出指定的几块。比如看一段做饭视频，它得能认出锅里的是番茄，旁边放的是盐，而不是把酱油当成醋。这是最基础的“看得到”。

第二层是“时序理解”，考验的是AI能不能看懂“先后顺序”。还是做饭视频，它得知道是先切番茄再下锅，而不是先炒番茄再去切。很多AI在这一关就露馅了——把视频帧打乱顺序，它照样能答对问题，说明它根本没理解时间的流动。

第三层是“复杂推理”，这才是真正的“看懂”。比如看完一段职场视频，它得能推断出员工为什么突然辞职，而不是只会说“他收拾东西走了”。这需要AI把看到的画面、动作、对话串起来，像人一样逻辑推理。

这套分层体系的厉害之处在于，它能精准定位AI的短板：很多AI在第一层能拿高分，到第二层就掉链子，第三层更是一塌糊涂——就像一个只会背单词的人，根本看不懂英语文章。

组级打分：AI“蒙题”再也藏不住了

过去评测AI视频理解，就像考试里只看选择题的总分，不管你是真会还是蒙对。而Video-MME-v2用了一种“组级非线性评分”，相当于把相关的几道题捆在一起判分——要对就全对，错一个就前功尽弃。

比如测试AI的空间理解能力，会出一组题：“猫在哪里？”“猫和桌子的相对位置是什么？”“猫后来移动到了哪里？”如果AI真的理解了空间关系，这三道题应该全答对；但如果它只是蒙对了第一题，后面两道答错，那这一组的得分就会很低。

针对需要多步推理的问题，评测还用上了“首错截断”——比如要推断一个人为什么生气，得先找到他摔杯子的画面，再回忆之前老板批评他的对话，最后得出结论。如果AI第一步就找错了画面，哪怕最后碰巧猜对了原因，也不算分。

这种打分方式一下就戳破了AI的“高分泡沫”：过去用单题准确率，很多AI能拿到60分以上，但用组级非线性评分，最高的商用模型也只有49.4分。更能说明问题的是，AI的组级得分和单题得分的比值只有75%左右，而人类能达到95%——这意味着AI的“懂”是零散的、不稳定的，而人类的“懂”是连贯的、稳定的。

思考模式：没了文本就“变笨”

现在的AI都流行加个“思考模式”，让它像人一样一步步推理。但这次评测发现，这个“思考”其实是个“偏科生”——它严重依赖文本线索，没了字幕就寸步难行。

比如给AI看一段带字幕的视频，开启思考模式后，得分能提升5.8分；但如果把字幕去掉，同样开启思考模式，得分反而会下降0.6分。这说明AI的“思考”并不是真的在分析画面，而是在抠字幕里的关键词——就像学生做阅读理解，只看题干里的提示词，根本没读文章。

更有意思的是，不是所有AI都适合开思考模式。有些小模型开了思考模式后，得分反而更低，因为它会把简单的问题复杂化，越想越错。这就像一个学习不好的学生，硬要模仿学霸的解题步骤，结果画蛇添足。

这背后暴露的是AI的核心短板：它还不会从视频的画面、声音里提取推理的线索，只能靠文本当“拐杖”。真正的视频理解，应该是像人一样，哪怕没有字幕，也能通过画面里的表情、动作、场景，推断出发生了什么。

当我们为AI的每一个“小进步”欢呼时，这套新评测体系给我们浇了一盆冷水——它让我们看到，AI的“理解”和人类的“理解”，还差着一条巨大的鸿沟。过去我们追求的“高分”，更像是AI在评测体系里练出的“应试技巧”，而不是真正的智能。

真正的理解，是连贯且稳定的。 未来的AI视频理解，不应该再追求“蒙对多少题”，而应该像人一样，从看到画面的那一刻起，就开始构建一个连贯的、有逻辑的世界模型。只有这样，AI才能真正看懂视频，而不是只会在评测里“考高分”。毕竟，我们需要的不是一个会做题的AI，而是一个能和我们一起看懂生活的伙伴。

三层体系：把视频理解拆成“真功夫”

组级打分：AI“蒙题”再也藏不住了

思考模式：没了文本就“变笨”

评论