对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
从文字到世界|李飞飞|空间智能|多模态视觉|人工智能
如果说过去的人工智能是一位博览群书却被囚禁于图书馆的盲眼学者,它能背诵所有关于太阳的诗篇,却从未感受过一丝温暖的光线,那么现在,这位学者正准备推开大门,第一次亲身走进这个由物理、几何与动态构成的真实世界。
故事始于2025年11月。11月10日,一篇题为《从文字到世界:空间智能是AI的下一个前沿》的宣言性文章悄然上线,作者是著名AI科学家李飞飞。她犀利地指出,当前以大语言模型(LLM)为代表的AI,尽管在语言上取得了惊人成就,但本质上仍是“黑暗中的文字匠”,它们被困在由文本和二维图像构成的“扁平世界”里,与我们生活的立体现实严重脱节。
这篇宣言如同一声号角。仅仅两天后,即11月12日,李飞飞联合创立的公司World Labs便向世界展示了宣言的第一个“物证”——名为Marble的前沿多模态世界模型正式向公众开放。紧随其后的是一个月前已做技术预演的RTFM(实时帧模型)。这并非巧合,而是一场蓄谋已久的范式革命的开端:AI不再满足于“描述世界”,它要开始“构建世界”。
语言的尽头,是世界的开端。LLM可以告诉你“一个红球从斜坡上滚下”,但它并不真正理解“滚动”背后的重力、摩擦与动量。它生成的视频,往往在几秒后就会出现物体凭空消失、阴影方向错乱等违背物理的“梦境”场景。原因无他,它缺乏我们与生俱来、甚至先于语言存在的能力——空间智能。
空间智能,是我们感知、导航并与三维世界交互的底层认知框架。它是我们接住抛来钥匙时的下意识反应,是建筑师在脑海中构建大楼的想象力,也是科学家发现DNA双螺旋结构时的空间推理能力。李飞飞认为,这正是AI实现下一次飞跃的关键,是机器从“对话工具”蜕变为“行动伙伴”的转折点。
要解锁这项能力,就需要一种远比LLM更宏大的技术构想——世界模型(World Model)。它就像在AI的大脑里内置了一个“物理引擎”和“现实模拟器”,其核心是三大支柱能力:
Marble和RTFM正是这一构想的首次惊艳亮相。Marble是一个强大的创意工具,它将“创世”的权柄交给了普通人。电影制作人、游戏设计师或建筑师,只需输入一张照片、一段视频、几句描述或一个简单的3D布局图,Marble就能在几分钟内生成一个可编辑、可下载、可自由探索的3D环境。它业内首次原生集成了AI编辑工具,允许创作者像上帝一样先“勾勒骨架”,再由AI“填充血肉”,极大地降低了3D内容创作的门槛。
而RTFM则解决了“互动”的难题。传统世界模型(如OpenAI的Sora)的渲染需要巨大的算力集群,而RTFM实现了惊人的技术突破:仅需一块H100 GPU,就能在你与之交互时,实时渲染出一个持久且3D一致的世界。它就像一块“活的画布”,你移动视角,场景便随之无缝流转,光影、反射、物理效果都精准得不可思议。这背后,是无需显式3D建模,直接从海量视频中端到端学习世界规律的全新架构。
World Labs的行动并非孤例。当李飞飞将目光投向物理世界时,全球的科技巨头们早已嗅到了新大陆的气息。谷歌的Genie模型,一句话就能生成一个可玩的2D游戏世界;马斯克的xAI正秘密招募英伟达专家,计划明年底前发布一款完全由AI生成的游戏;Meta的V-JEPA2模型致力于让AI通过预测视频变化来理解世界结构;在中国,智源研究院发布的Emu3.5多模态世界模型,通过学习长达790年的视频数据,同样展现了对物理世界的深刻理解。
这场围绕“世界模型”的竞赛,重要性不亚于上一次的“大语言模型”之战。英伟达甚至预测,世界模型的潜在市场规模可能接近当前全球经济的总量。因为它不再仅仅是信息产业的升级,而是驱动物理世界所有产业——机器人、自动驾驶、工业制造、科学研究——进行智能化变革的底层基础设施。
空间智能的影响将分阶段深刻地改变我们的生活。短期内,它将首先在创意产业掀起革命。Marble这样的工具正让“所想即所得”的3D创作成为现实,赋能从好莱坞大片到个人Vlog的每一个故事讲述者。
中期来看,机器人技术将是空间智能的核心用武之地。当机器人拥有了强大的世界模型,它就能在行动前“预演”不同行为的后果,从而在复杂的现实环境中进行自主导航、操作和决策。这正是实现“具身智能”——让AI拥有身体并与物理世界互动的关键一步。未来的家庭助理、工厂工人、手术医生,可能都将由具备空间智能的机器人担任。
从长远视角看,其最深远的影响将辐射至科学、医疗与教育。科学家可以利用它模拟无法进入的环境(如深海或遥远行星),加速气候科学和材料研究;医生可以借助它进行手术路径规划,或通过多维建模加速药物发现;教育者则能创造出沉浸式学习环境,让抽象概念变得具体可感。
当AI拥有了干预物理世界的能力,伦理与安全的边界必须被前置思考。李飞飞反复强调,AI必须增强人类的能力,而非取而代之;它必须始终尊重人的能动性与尊严。这不仅是技术开发的指导原则,也是社会必须建立的共识。
空间智能的真正价值,或许不在于创造出多么逼真的虚拟世界,而在于它为我们打开了一扇重新思考“智能”本质的窗户。它让AI从一个“会说”的伙伴,进化为一个“会做”的协作者。它将人类的想象力、创造力与机器强大的模拟、推理能力前所未有地结合在一起。
这场从文字到世界的远征才刚刚开始。AI正在睁开双眼,学习我们世界的语言——那不是由词汇构成的,而是由空间、光影、物理定律和因果关系书写的古老篇章。一个更加真实、可创造、可交互的智能时代,正以前所未有的速度向我们走来。