
1 个月前
一个刚学会搭积木的小孩,看见塔尖晃了晃会立刻伸手去扶——这是摔过无数次玩具攒下的「物理直觉」:不用算重心、力矩,本能就知道什么稳、什么会倒。但能以每秒百万次速度算出这些物理量的AI,面对一段「积木凭空悬浮」的视频,却会认真点头说「合理」。
这就是问题的核心:AI在物理奥赛里能碾压人类顶尖选手,却连人类婴儿都懂的物理常识都摸不着头脑。它是真的理解了物理世界,还是只是背下了海量题库的「做题家」?最近,科学家们给AI设计了一套全新的「物理高考」,要测出它到底是会算,还是真懂。
要判断AI是不是真懂物理,得先搞懂「懂物理」到底分几个层次。科学家们把AI的物理能力拆解成了三级台阶,每一级都对应着专门的「高考题库」——也就是行业里说的benchmark(基准测试)。
最基础的第一级是「计算层」:让AI根据已知的物理规则和初始条件,预测系统未来的状态。比如给它一段水流的实时数据,让它算下一秒水流会拐弯还是撞墙。这类测试的代表是PDEBench,里面全是偏微分方程相关的预测题,本质上就是考AI的计算速度和精度,相当于物理考试里的「选择题」——会套公式就能得分。
第二级是「控制层」:不只是让AI算结果,还要它反过来想「怎么做才能达到目标」。比如让机械臂在不碰倒杯子的前提下抓起鸡蛋,或者设计一种又轻又结实的材料。RoboBPP就是这类测试的典型,它模拟了真实工业场景里的装箱任务,AI得考虑重力、摩擦力、碰撞等所有物理约束,一步步规划出最优的抓取和摆放策略。这已经不是「做题」了,而是「解决实际问题」,相当于物理考试里的「实验题」。
最高级的第三级是「因果层」:让AI理解物理现象背后的因果链,知道「为什么」。比如让它生成一段「钠扔进水里」的视频,它得准确还原「钠遇水放热→产生氢气→氢气被点燃」的完整过程,而不是随便做个烟花特效。DeepPHY把AI丢进虚拟游戏厅,让它玩弹球、愤怒的小鸟这些需要多步推理的游戏,考的就是它能不能从失败里修正策略,理解动作和结果之间的因果关系。这相当于物理考试里的「论述题」——得真懂原理才能答好。

除了任务难度的分层,科学家们还从「AI怎么感知世界」的角度,设计了不同的测试场景——毕竟人类是靠眼睛看、耳朵听、手摸来理解物理的,AI也得有对应的「感官」。
最基础的是「文本题」:比如SuperGPQA,全是文字和公式组成的物理题,考的是AI的抽象推理和数学演算能力。这就像闭卷考试,AI只能靠脑子里的「知识库」来答题,不用接触真实世界。
再往上是「视觉题」:比如IntPhys,它给AI看一系列视频,里面有的是符合物理规律的正常事件,比如球从斜坡滚下落地;有的是违背常识的异常事件,比如球飞到半空突然悬浮。AI得像八个月大的婴儿一样,一眼认出哪些是「不可能」的。这类测试考的是AI的「物理常识感」,就像让它看着实验现象判断对错。

现在最火的是「多模态题」:比如SeePhys,里面的每道题都配着复杂的物理图表,AI得先看懂坐标系、识别波的干涉条纹、追踪粒子的运动轨迹,才能解题。这就像真实的物理研究,得结合文字、图表、实验数据一起分析。
最高阶的是「动手题」:比如PAI-Bench,它直接把AI扔进虚拟厨房,让它动手炒菜——得控制火候、翻炒食材、避免把锅烧干。这时候AI不仅要理解物理规律,还要通过和环境的交互来验证和调整策略,就像人类通过摔玩具、打翻杯子来学习物理一样。

我认为,这才是AI理解物理的关键:不是在纸上做题,而是在和世界的互动中,建立起对物理规律的直觉。
虽然AI在不少测试里表现亮眼,但科学家们发现,它的「物理直觉」其实漏洞百出。比如Meta的V-JEPA模型,在简单的IntPhys测试里能达到98%的准确率,但到了更复杂的IntPhys 2——场景里有动态摄像机、物体遮挡,需要短期记忆的时候,它的准确率就跌到了接近随机的50%。
OpenAI的o3-mini模型更夸张:它在大学物理教材的力学章节测试里,准确率能达到94%,但到了波动、热力学这些更复杂的章节,准确率直接跌到了76%。原因很简单:它只是记住了力学题的解题套路,却没理解背后的物理原理,遇到更复杂的、需要跨章节推理的问题,就原形毕露了。
更关键的是,AI至今还没建立起「因果推理」的能力。它能算出两个变量之间的相关性,却搞不懂谁是因、谁是果。比如它能知道「下雨的时候地面会湿」,但如果问它「如果地面湿了,是不是一定下雨了」,它就会答错——因为它不知道地面湿了还可能是有人泼了水。
这些漏洞都指向一个事实:当前的AI还只是个「超级做题家」,它能靠海量数据和高速计算在特定任务里表现出色,但离真正理解物理世界,还有很长的路要走。
人类的物理直觉,是摔过无数次、碰过无数次壁才攒下的「本能」——我们不用算就知道,东西掉下来会砸脚,门夹手会疼,积木堆太高会倒。而AI的「物理能力」,更像是一本厚厚的错题本:它记住了无数题目的解法,却没真正体验过物理世界的「反馈」。
会算,不等于懂。这不仅是AI的困境,也是我们对智能的重新思考:真正的智能,从来不是冰冷的计算,而是在和世界的互动中,建立起的对因果的理解、对规律的直觉。
未来的AI,或许不用再做百万道物理题,而是像个孩子一样,先去摔一次玩具,碰一次杯子,在真实的互动里,长出属于它的「物理直觉」。
点击充电,成为大圆镜下一个视频选题!