对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
图灵问题|人工智能发展|物理世界理解|李飞飞|大语言模型|人工智能
如果说今天的人工智能(AI)是一位才华横溢的诗人,那么他正被囚禁于一间黑暗的屋子里。他能引经据典,挥洒自如地写出优美的诗篇,甚至能根据你描述的“窗外阳光”,创作出一首关于光与热的颂歌。然而,他从未真正感受过阳光的温度,也无法告诉你,伸手触碰窗台需要几步。这位“文字囚徒”,正是当前以大语言模型(LLM)为代表的AI的生动写照:博学、雄辩,却与我们生活的物理世界完全脱节。
七十多年前,当图灵提出“机器能思考吗?”这一划时代的问题时,他或许已经预见到,真正的智能远不止于符号的运算。如今,这个问题有了新的注脚。AI领域的领军人物、被誉为“AI教母”的李飞飞发出了新的宣言:AI的下一个重大突破,在于赋予机器“空间智能”(Spatial Intelligence),让它们走出黑暗的房间,真正理解并参与到人类的现实与虚拟世界中。这不仅是她创办新公司World Labs的“北极星”,也被视为AI迈向通用智能(AGI)的最后一里路。
在我们讨论AI的“空间智能”之前,不妨先审视自身。我们每天都在不经意间施展着这种“超能力”:在拥挤的人行道上穿梭自如,精准地将钥匙抛给对面的朋友,或是凭感觉将车停入狭窄的车位。这种对距离、方位、动态和物理关系的直觉性理解,是人类认知能力的基石。从古希腊的埃拉托斯特尼利用日影测量地球周长,到沃森和克里克搭建实体模型揭示DNA双螺旋结构,人类文明的每一次飞跃,都离不开在三维空间中思考、创造和行动的能力。
然而,今天的AI在这方面却像个蹒跚学步的婴儿。最先进的多模态大模型,在估计物体大小、预测基本物理现象、甚至在简单的迷宫中找到捷径时,表现往往不比随机猜测好多少。AI生成的视频,尽管惊艳,却常在几秒后失去空间逻辑的一致性,出现物体凭空消失或违反重力的“穿模”现象。正如哲学家维特根斯坦所言:“我语言的极限,就是我世界的极限。”对于AI而言,这个“语言”构成的世界,显然还不够完整。AI需要挣脱一维文本序列的束缚,拥抱一个由物理、几何和动态规则构成的三维世界。
如何让AI走出“洞穴”?李飞飞和众多顶级科学家给出的答案是:构建“世界模型”(World Models)。这是一种全新的生成式AI,其雄心远超LLM。它不仅要理解语言和图像,更要理解世界运行的底层逻辑——物理定律、空间几何和动态交互。
一个真正的世界模型必须具备三大核心能力:
这无疑是一项艰巨的挑战。世界的维度远比语言复杂,其背后是无数物理定律的约束。为此,全球顶尖的AI公司,从谷歌DeepMind、Meta到英伟达,都在积极布局。李飞飞的World Labs更是推出了一个名为RTFM(实时帧模型)的惊人成果。它仅需一块主流GPU,就能根据一张2D图片实时生成一个可供用户自由探索、且永久保持一致性的3D世界。这就像给AI配备了一个“可学习的渲染器”,让它第一次拥有了低成本、高效率构建虚拟世界的能力。同时,中国的群核科技也发布了专注于室内场景的SpatialLM和SpatialGen模型,并宣布开源,旨在解决AI视频生成中普遍存在的“时空不一致”难题,推动整个生态的共建。
空间智能并非空中楼阁,它正引发一场深刻的产业变革,其中最激烈的战场莫过于自动驾驶。在这里,两条技术路线正在激烈交锋。
一方是以视觉-语言-行为大模型(VLA)为代表的阵营,如小鹏汽车。他们主张,通过将视觉信息“翻译”成语言,让大模型进行“思考”和推理,再生成驾驶行为。这种方式利用了LLM强大的逻辑推理能力,形成可解释的“思维链”。
另一方则是“世界模型”的拥护者,如蔚来和华为。他们认为,人类开车并非依靠语言,而是基于对驾驶环境的直觉理解和预测。因此,AI也应跳过语言这个“中间商”,直接从传感器数据构建一个内在的世界模型,并生成驾驶动作。这是一种更接近人类直觉的“端到端”模式。
这场“路线之争”没有绝对的对错,背后是不同公司对技术成熟度、算力成本和最终愿景的权衡。但无论哪条路径,其核心目标都是一致的:让汽车不仅能“看见”路,更能“理解”整个交通环境的动态变化。高德地图的全面AI化转型,正是将自身积累的海量时空数据,开放为赋能行业的“空间智能”底层能力,其与小鹏Robotaxi的合作,预示着一个由空间智能驱动的出行新生态正在形成。
当AI真正掌握了空间智能,其影响力将远远超出驾驶。它将成为一把钥匙,开启一个虚实融合的新纪元。
在创意领域,电影制作人、游戏设计师和建筑师将成为新世界的“创世神”。李飞飞团队的Marble平台,已经能让创作者用一句话或一张图,快速生成可供探索的3D世界,极大地降低了创意表达的门槛。未来,每个人都能成为自己故事的导演,构建个性化的互动叙事体验。
在机器人领域,这是实现“具身智能”的最后一块拼图。机器人将能在世界模型构建的虚拟环境中进行数百万次的训练,学习如何在复杂的现实世界中导航、抓取和协作,而无需承担现实世界试错的高昂成本。从工业生产线上的精密操作,到家庭中的贴心陪伴,拥有空间感的机器人将真正融入我们的生活。
在科学研究中,AI将成为科学家的“超级实验室”。清华大学的PhyE2E模型已经能从观测数据中自动推导出空间物理公式,展现了AI在基础科学发现中的巨大潜力。未来,科学家可以在AI构建的数字孪生世界中模拟从分子相互作用到气候变化的复杂系统,以前所未有的速度和规模进行实验,加速人类知识的边界拓展。
从图灵的沉思,到ImageNet让机器睁开“眼睛”,再到大语言模型赋予其“口才”,AI的进化之路,始终在追寻对世界更深层次的理解。如果说语言能力是AI的“少年时代”,那么掌握空间智能,将是它迈向成熟的“成人礼”。
这不仅是一场技术革命,更是一次深刻的哲学回归。它要求AI不再仅仅处理人类创造的抽象符号,而是去学习和理解那个独立于人类之外、由物理法则主宰的客观世界。李飞飞始终强调,AI的目标是“增强而非取代”人类。一个真正理解我们所处空间、能够与我们协同创造的AI,才能成为人类智慧的“能力放大器”,帮助我们解决从疾病到气候变化的宏大挑战。
这趟从“文字”到“世界”的旅程,道阻且长,但方向已经明确。当AI最终走出那间黑暗的屋子,迎接它的,将不仅是三维世界的阳光,还有一个与人类共创的、充满无限可能的未来。