对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
卫星图解析|物理规则理解|材料力学|视觉推理AI|Andrew Dai|多模态视觉|人工智能
当你让AI设计一辆更轻的汽车,它能输出几十页充满专业术语的方案——但它不知道,那些参数组合起来会违背材料力学的基本规律。前DeepMind研究员Andrew Dai把这种状态形容为“3岁儿童的视觉智能”:能认出画面里的汽车,却理解不了它的重量、结构和行驶时的受力逻辑。
正是瞄准这个盲区,他创办的团队完成了5500万美元融资,要做“会思考的视觉推理AI”——不是生成惊艳的画面,而是让AI能看懂一张卫星图里的地质结构,能推断出建筑设计图里缺失的承重梁,能理解机器人抓取物体时的受力临界点。这意味着AI要跳出“文本转图像”的路径,直接在视觉信号里解析物理规则。
现有大模型的物理理解困境,本质是训练逻辑的先天缺陷。它们靠互联网上的文本和图片喂大,学的是“汽车”这个词和对应图像的关联,却没机会像人类那样,通过触摸、搬运、拆解去掌握物体的重量、硬度、重心这些物理属性。就像你读一万本烹饪书,也学不会颠锅时控制火候的力道——那些藏在感官里的物理常识,是文本永远喂不出来的。
为了补上这一课,研究者正在尝试两个方向:一是给模型植入“解析概念”——用数学程序定义物理世界的规则,比如把“门把手”拆解成“圆柱形、可绕轴旋转、直径5-10厘米”的结构化参数,让AI能精准对应到真实的物理属性;二是打造“视觉语言行动模型”,把视觉感知、语言推理和动作控制捏合在一起,让AI在模拟环境里“动手”试错,像婴儿那样通过摆弄物体建立物理认知。

但这些尝试仍在实验室的安全区里徘徊。当模型被放到真实的工厂车间或自动驾驶场景,面对光线变化、零件磨损、突发障碍物这些不可控变量,它的物理推理能力会迅速滑坡——就像一个背熟了公式的学生,一到考场就忘了怎么解题。
更现实的挑战来自产业端。工厂需要的不是能在模拟环境里拿满分的AI,而是能在油污、噪音、振动里稳定工作的系统;医生需要的不是能描述影像特征的AI,而是能解释“为什么这个阴影是肿瘤”的推理逻辑。这些场景容不得“差不多”的答案,每一次错误判断都可能对应真金白银的损失,甚至是生命风险。

Andrew Dai团队选择了一条更务实的路径:基于开源模型开发,计划先放出小版本供社区测试,旗舰模型则保持专有——既借开源生态降低研发成本,又靠专有模型把控产业落地的可靠性。这种“半开放”的策略,或许是平衡技术迭代与商业风险的最优解。
我们谈论AI的物理理解,本质上是在追问:机器能不能拥有像人类一样的“具身认知”?不是靠数据统计规律,而是靠对世界的直接感知和交互建立常识。当AI终于能看懂一张建筑图里的力学逻辑,能预判机器人抓取易碎品时的力道,它才算真正从“会说话的图像生成器”,变成了能在物理世界里解决问题的工具。
而那一天,才是AI真正走进工厂、医院和自动驾驶座舱的开始——不是作为一个炫技的玩具,而是作为一个懂物理、讲逻辑的合作者。