新知 - 大圆镜｜AI睁眼看世界：空间智能如何引爆下一场“创世”革命

对抗知识焦虑，从看懂这条开始

如果说过去的人工智能是一位博览群书却被囚禁于图书馆的盲眼学者，它能背诵所有关于太阳的诗篇，却从未感受过一丝温暖的光线，那么现在，这位学者正准备推开大门，第一次亲身走进这个由物理、几何与动态构成的真实世界。

一份宣言与两个“创世”工具

故事始于2025年11月。11月10日，一篇题为《从文字到世界：空间智能是AI的下一个前沿》的宣言性文章悄然上线，作者是著名AI科学家李飞飞。她犀利地指出，当前以大语言模型（LLM）为代表的AI，尽管在语言上取得了惊人成就，但本质上仍是“黑暗中的文字匠”，它们被困在由文本和二维图像构成的“扁平世界”里，与我们生活的立体现实严重脱节。

这篇宣言如同一声号角。仅仅两天后，即11月12日，李飞飞联合创立的公司World Labs便向世界展示了宣言的第一个“物证”——名为Marble的前沿多模态世界模型正式向公众开放。紧随其后的是一个月前已做技术预演的RTFM（实时帧模型）。这并非巧合，而是一场蓄谋已久的范式革命的开端：AI不再满足于“描述世界”，它要开始“构建世界”。

为何AI需要理解“空间”？

语言的尽头，是世界的开端。LLM可以告诉你“一个红球从斜坡上滚下”，但它并不真正理解“滚动”背后的重力、摩擦与动量。它生成的视频，往往在几秒后就会出现物体凭空消失、阴影方向错乱等违背物理的“梦境”场景。原因无他，它缺乏我们与生俱来、甚至先于语言存在的能力——空间智能。

空间智能，是我们感知、导航并与三维世界交互的底层认知框架。它是我们接住抛来钥匙时的下意识反应，是建筑师在脑海中构建大楼的想象力，也是科学家发现DNA双螺旋结构时的空间推理能力。李飞飞认为，这正是AI实现下一次飞跃的关键，是机器从“对话工具”蜕变为“行动伙伴”的转折点。

要解锁这项能力，就需要一种远比LLM更宏大的技术构想——世界模型（World Model）。它就像在AI的大脑里内置了一个“物理引擎”和“现实模拟器”，其核心是三大支柱能力：

生成性（Generative）： 能创造出在几何、物理和动态上完全自洽、保持一致的虚拟世界。
多模态（Multimodal）： 能原生理解并处理图像、视频、文本、3D布局乃至动作指令等一切形式的信息。
互动性（Interactive）： 能根据一个“动作”输入，精准预测世界的“下一个状态”，从而连接感知与行动的闭环。

Marble与RTFM：通往新世界的两把钥匙

Marble和RTFM正是这一构想的首次惊艳亮相。Marble是一个强大的创意工具，它将“创世”的权柄交给了普通人。电影制作人、游戏设计师或建筑师，只需输入一张照片、一段视频、几句描述或一个简单的3D布局图，Marble就能在几分钟内生成一个可编辑、可下载、可自由探索的3D环境。它业内首次原生集成了AI编辑工具，允许创作者像上帝一样先“勾勒骨架”，再由AI“填充血肉”，极大地降低了3D内容创作的门槛。

而RTFM则解决了“互动”的难题。传统世界模型（如OpenAI的Sora）的渲染需要巨大的算力集群，而RTFM实现了惊人的技术突破：仅需一块H100 GPU，就能在你与之交互时，实时渲染出一个持久且3D一致的世界。它就像一块“活的画布”，你移动视角，场景便随之无缝流转，光影、反射、物理效果都精准得不可思议。这背后，是无需显式3D建模，直接从海量视频中端到端学习世界规律的全新架构。

一场无声的“太空竞赛”

World Labs的行动并非孤例。当李飞飞将目光投向物理世界时，全球的科技巨头们早已嗅到了新大陆的气息。谷歌的Genie模型，一句话就能生成一个可玩的2D游戏世界；马斯克的xAI正秘密招募英伟达专家，计划明年底前发布一款完全由AI生成的游戏；Meta的V-JEPA2模型致力于让AI通过预测视频变化来理解世界结构；在中国，智源研究院发布的Emu3.5多模态世界模型，通过学习长达790年的视频数据，同样展现了对物理世界的深刻理解。

这场围绕“世界模型”的竞赛，重要性不亚于上一次的“大语言模型”之战。英伟达甚至预测，世界模型的潜在市场规模可能接近当前全球经济的总量。因为它不再仅仅是信息产业的升级，而是驱动物理世界所有产业——机器人、自动驾驶、工业制造、科学研究——进行智能化变革的底层基础设施。

从创意工具到具身智能：我们如何被改变？

空间智能的影响将分阶段深刻地改变我们的生活。短期内，它将首先在创意产业掀起革命。Marble这样的工具正让“所想即所得”的3D创作成为现实，赋能从好莱坞大片到个人Vlog的每一个故事讲述者。

中期来看，机器人技术将是空间智能的核心用武之地。当机器人拥有了强大的世界模型，它就能在行动前“预演”不同行为的后果，从而在复杂的现实环境中进行自主导航、操作和决策。这正是实现“具身智能”——让AI拥有身体并与物理世界互动的关键一步。未来的家庭助理、工厂工人、手术医生，可能都将由具备空间智能的机器人担任。

从长远视角看，其最深远的影响将辐射至科学、医疗与教育。科学家可以利用它模拟无法进入的环境（如深海或遥远行星），加速气候科学和材料研究；医生可以借助它进行手术路径规划，或通过多维建模加速药物发现；教育者则能创造出沉浸式学习环境，让抽象概念变得具体可感。

伦理之镜与未来的协同进化

当AI拥有了干预物理世界的能力，伦理与安全的边界必须被前置思考。李飞飞反复强调，AI必须增强人类的能力，而非取而代之；它必须始终尊重人的能动性与尊严。这不仅是技术开发的指导原则，也是社会必须建立的共识。

空间智能的真正价值，或许不在于创造出多么逼真的虚拟世界，而在于它为我们打开了一扇重新思考“智能”本质的窗户。它让AI从一个“会说”的伙伴，进化为一个“会做”的协作者。它将人类的想象力、创造力与机器强大的模拟、推理能力前所未有地结合在一起。

这场从文字到世界的远征才刚刚开始。AI正在睁开双眼，学习我们世界的语言——那不是由词汇构成的，而是由空间、光影、物理定律和因果关系书写的古老篇章。一个更加真实、可创造、可交互的智能时代，正以前所未有的速度向我们走来。

脉络

1943年7月

沃伦·麦卡洛克与沃尔特·皮茨发表论文，首次提出人工神经网络模型，为空间智能的理论基础奠定了重要基石。

1969年

约翰·奥基夫发现海马体中的位置细胞，揭示动物空间定位的神经机制，成为生物空间智能研究的里程碑。

1971年6月

斯坦福研究所的Victor Scheinman开发了Stanford Arm，首次实现空间坐标下的机器人运动控制，推动空间智能在机器人领域的发展。

1981年

大卫·马尔出版《视觉》一书，提出空间信息处理的三层次理论，奠定了计算机视觉空间理解的理论基础。

1997年

托尔夫·约斯特·莫泽和梅-布里特·莫泽发现网格细胞，进一步阐明大脑空间导航机制，推动空间智能的神经基础研究。

2004年

DARPA城市挑战赛启动，推动无人驾驶汽车的空间感知与智能导航技术发展，激发产业界对空间智能的关注。

2012年12月

多伦多大学亚历克斯·克里泽夫斯基等提出深度卷积神经网络AlexNet，大幅提升空间信息识别能力，开启深度学习空间智能时代。

2015年5月

DeepMind团队发布DQN算法，实现强化学习智能体在虚拟空间中的自主探索，推动空间智能在人工智能领域的应用。

2018年10月

谷歌Waymo无人车实现凤凰城公开载客运营，标志空间智能在现实复杂环境中的大规模落地应用。

2020年3月

OpenAI发布GPT-3，展现了大规模模型对空间表征和推理能力的提升，推动通用空间智能研究。