AI创造无限虚拟世界，现实还重要吗？

把头显戴上，脚下就能“长出”一座城：街灯会随你的步伐摇曳，风能吹动虚拟树叶，抬手还能把一颗恒星捏近眼前。AI正在把想象变成可走、可触、可改写的世界。可当虚拟世界的边界无限延展，一个古老的问题也被推到眼前——现实还重要吗？要回答它，先看AI正在追逐的能力：空间智能。它不是会讲故事的“嘴”，而是会在三维世界里感知、理解、推理与行动的“身”。为此，研究者正打造“世界模型”——既能生成世界、又能用多模态交流、还能对动作给出下一状态的模型。但这些模型必须遵守几何与物理的一致性，眼前的一帧要和上一秒的因果对得上。这意味着：再天马行空的世界，也得尊重它所定义的规则。现实的分量，也正由AI的“不足”显露。即便最强的多模态模型，估计距离、方向、大小常常不比蒙对好；换个角度“在脑中旋转”物体也容易失手；生成视频几秒后就“散架”。世界模型要想更像世界，还在攻克通用训练目标、海量而丰富的视觉与触觉数据、以及3D/4D感知与记忆架构等难题。新近的实时生成框架用“空间记忆”维持场景的持久性，的确让世界更稳了，可离以假乱真、长期一致还早。也因此，现实仍是校准一切模型的“地心引力”。这并不妨碍虚拟世界成为创造力的倍增器。新的平台已经能把文本、草图、视频混合作为提示，几分钟里生成可探索的3D场景；导演能瞬间试万遍分镜，建筑师可在“尚未存在”的楼里走一圈，学生也能钻进细胞通道里理解生命机器。对机器人而言，世界模型像一个无穷大的训练场，快速缩短“模拟到现实”的鸿沟。但真正的考卷，仍在物理世界：能否让工厂更安全、让手术更精准、让药物更快走到病床边。当虚拟变得温柔可亲，心理与社会的副作用也要正视。伴侣型机器人在青少年中已广泛出现，随时在线、永不厌倦、善于共情，却可能制造“虚假亲密”，弱化批判性与自我调节，甚至在极端个案里放大风险。一些地区已要求聊天系统定期提示“这不是人类”，并内置防自伤机制；也有企业因此被重罚。教育界提出把“屏幕时间”转向“屏幕价值”的范式：不只算分钟，更看这段互动是否提升了好奇、合作与判断。文化层面，同质的虚拟审美正在放大现实偏见。“白幼瘦”的流水线美学把复杂的人削成单一的模板，既误导大众，也挤压多样性创作空间。虚拟世界之所以珍贵，是因为它能容纳万千视角；一旦把它做成镜厅，现实焦虑只会被成倍反射。把现实中的多元、力量与不完美，认真移植到虚拟，才是技术的人文胜利。所以，答案并非“虚拟取代现实”，而是“虚拟为现实服务”。现实重要，因为它是所有模型的坐标系，是检验真伪、承载责任与生成意义的地方。虚拟重要，因为它是无限的风洞与沙盒，让我们低成本试错、高效率迭代，把未来先演练一遍。面向个人，一条可操作的准绳是：为自己保留“现实锚点”——阳光与步伐、手作与关系、对真实风险与真实反馈的体感；评估每一次沉浸的“屏幕价值”，问一句：这段经历，能否回流到我的现实行动？如果说语言模型把我们带到了“字词的天际线”，世界模型正在搭桥通往“物理的地平线”。桥的两端缺一不可。愿我们以现实为基，以上善之心驭虚拟之力，在想象与触感之间往复打磨，把可能变成更好的现实。毕竟，真正的世界，不只在屏幕里，也在你伸手可及的地方。

空间智能机器人来了，我的工作还保得住吗？

把一副VR头显戴在机器人身上，会发生什么？当它拥有人类般的“空间感”，能看懂深浅、距离、遮挡和动态变化，它不再只是在生产线上重复动作，而是学会在世界里“活”。这就是空间智能的承诺：让机器不仅理解图像，更理解三维世界——并由此改变几乎每一种工作。但问题并不只是“它会不会取代我”，更是“我将如何与它并肩作战”。先给你最实际的判断。短期内，大规模“一刀切”的替代不会发生。空间智能和世界模型正快速进步，但还远未“像人一样”可靠：多模态模型在估计距离、方向、尺寸、物体心理旋转、迷宫导航和物理预测上仍常常失手；生成视频几秒后就会失去连贯性；在工业现场，传感器融合、强光/遮挡干扰、对透明表面和半遮挡物体的识别、以及长时稳定性都是痛点。传统工业机器人平均无故障运行时间可达8万小时，而许多具身机器人还在追赶；很多城市的试点项目仍停留在小批量“实训”。这意味着：替代来得没有想象中快，但“重塑岗位结构”来得比以往任何技术浪潮都猛。从趋势看，几乎所有岗位都会受波及。研究与行业数据都在提示：约九成职业将被AI自动化或增强触达；有的行业入门岗位招聘已明显放缓；在美国，AI增强机器人在工厂的综合成本被压到每小时几美元，而人类工人平均工资高得多。这些事实解释了为何基础、重复、可量化的环节最先被重写：仓储分拣、上下料、质检流程、基础客服、简单文案、合同初筛、影像初判，都会被“机器先过一遍”。现实案例已经出现：保险小额理赔的自动化处理率高企，投研、法务、风控中的基础环节用时骤降。但另一面同样鲜明：新岗位、新技能、新溢价在迅速出现。能把AI“管好、用准、落地”的人，正获得30%—50%的薪酬溢价。金融里出现模型验证与对齐岗位，法务里涌现AI—法律交叉专家，制造与物流需要人机协作设计师与异常处理专家，医疗出现“AI+人类协作”型专科角色。凡是需要跨域判断、信任构建、复杂沟通、合规与安全把关、以及对“最后一公里”场景进行流程编排与质量闭环的工作，短期内都更稳固，反而因AI而变得更有价值。空间智能还打开了一条全新赛道：会“讲空间故事”的人。新一代世界模型平台（如能生成并维持一致3D环境的创作工具）让设计、影视、建筑、教育训练从文字草图一跃到可探索、可交互的世界原型。这不是替代创意，而是把创意的迭代速度从“周”缩短到“分钟”。掌握这类工具的叙事者、体验设计师、数字孪生工程师，将在内容、工业、城市治理中迅速吃香。那你的工作还保得住吗？答案取决于你是否把自己的位置从“被自动化的环节”移动到“驱动自动化的人”。给你三个着力点，都是可落地的转身：把AI当共事者而非工具。学会把任务拆成机器可执行的空间与语义指令，设计“人机分工 + 异常回路 + 质量度量”的流水线。谁能让复杂技术在混乱的人类系统中稳定运转，谁就不可替代。从“做事情”升级为“编排事情”。无论在工厂还是办公室，去承担接口与治理角色：数据规范、隐私安全、流程优化、SOP与KPI重构、模型验收与持续监控。组织的摩擦点，正是你的护城河。补齐“空间素养”。哪怕不做工程师，也要会读懂三维世界：基本传感器原理、数字孪生与仿真、XR/3D编辑与世界模型的提示工程。把文字与空间桥接起来，你就能把AI的能力转化成业务价值。不用恐慌，你还有时间窗口。产业实践显示，大范围替代常在“试点—扩散—标准化—规模化”的链条上循序推进，真正跨过可靠性、成本、标准与供应链的门槛，需要数个产品迭代周期。越早成为“把AI落地的人”，越能把浪潮的冲击变成自己的升维器。人类的文明一直在与工具共生：蒸汽机解放了肌肉，计算机扩展了记忆，而空间智能将延展我们的“在世界中思考”的能力。当机器会看、会动、会想，留给我们的不是更少的工作，而是更高的要求——去提出更好的问题，去设计更优雅的系统，去承担更大的责任。愿你把“我会不会被替代”的焦虑，转化为“我能让世界更聪明”的雄心。最终决定你岗位安全的，不是机器人来了没有，而是你是否选择和它一起，成为时代的新同事。

AI扫描现实建成虚拟世界，谁来保护我的隐私？

想象一下：你的客厅被一台手机或头显“扫”成一座可漫游的3D世界，灯光、相框、书脊上的字都在虚拟空间里清晰可见。它能帮设计师秒级改造空间、让学生在历史场景中“行走”、给机器人提供安全可练的训练场。但同一套数据，也可能透露你的地址、家庭构成、宗教信仰、健康习惯。问题来了——当AI把现实变成世界模型，谁来守住你的隐私边界？答案不是某一个“谁”，而是一整套协作的“护城河”。在设备侧，真正负责任的产品会把“少收、就地算、先脱敏”做成默认设置：在采集那一刻就自动打码人脸、车牌与纸面文字，对卧室、卫生间等区域设定“禁录区”，让三维重建优先保留结构信息而过滤个人物件细节。对于空间智能至关重要的地图与轨迹，应尽量临时化、会过期、可一键清除，避免成为“永不遗忘”的数字监控。在算力与基础设施层，可信执行环境正在成为隐私计算的硬件底座。把重建与理解算法放进受硬件保护的“飞地”，让原始画面在内存中始终被加密、带完整性校验，即便系统管理员也无法窥探；只有经过远程证明的可信程序，才能解封密文。随着GPU/NPU TEE逐步成熟，连渲染和推理也可在“黑盒”里完成，外界只看见“需要知道”的结果，而看不到“你是谁、家在哪里”。在数据与模型层，世界模型不必以你的原始生活为代价成长。高质量合成数据、结构优先的几何指令、加噪的差分隐私、以及联邦学习，能显著减少对敏感原始素材的依赖。对不可避免的真实数据，应该先在本地完成语义脱敏，再以最小必要粒度上传。模型输出同样需要“去标识化”的自律：生成可解释的几何与物理状态，但不携带可逆的个人特征；对“回放现实”的功能设置严格的访问控制、可追溯审计与到期销毁。在制度与伦理层，边界必须写进规则。明确的知情同意、用途限定与数据保留期限，不是补充条款而是产品设计的一部分。孩子、病人和家庭环境是高敏感场景，更需默认关闭跨域分享与训练用途。学校里用AI监测聊天记录以挽救自残风险，揭示了“安全”与“隐私”的艰难权衡：这类系统应有透明的触发标准、最小化可见信息、人类监督的干预流程，以及独立第三方的安全与偏见审计。技术可以预警，但不该悄无声息地扩大监控文化。你并非旁观者。选择空间扫描应用时，勇敢发问：数据是否本地处理，是否使用硬件飞地，多久删除，谁能访问，我能否拒绝用于训练，是否提供房间级的禁录和一键清除，是否对人脸与文字默认脱敏？真正成熟的团队，会把这些问题写进界面、写进日志，也写进他们的工程文化。行业也在自我进化。空间智能的开创者们强调“AI应当增强人，而非替代人”，这意味着把人的尊严与自主权当作系统目标来优化。新的世界模型正从“会生成”走向“能互动、可推理、守规则”，它们正在学会把几何、语义与物理统一起来，也应学会把权利、同意与遗忘统一起来。没有这一点，再聪明的模型也只是“看得见，却看不懂界限”。归根到底，世界模型的使命，是理解“世界”，而不是窥探“你”。当技术把空间叠加成无限维度，我们更需要为隐私划定一条清晰、可计算、可验证的边界。也许真正成熟的智能，不是记住一切，而是懂得在何处闭上眼睛。因为自由的形状，往往正是边界的样子。

AI真的需要“身体”吗？还是大脑就够了？

把一台只会写诗、答题、写代码的“聪明大脑”关在一间没有窗的房间里，问它：请端一杯咖啡别洒、在陌生厨房找出滤纸、绕开地上那只猫。它会滔滔不绝，却很可能寸步难行。原因不神秘：语言能描述世界，但身体才让智能与世界闭环。AI究竟需要“身体”吗？如果你的目标只是处理信息，“大脑”就够；但如果你的目标是理解、创造并改变这个三维世界，没有某种形式的具身，智能就难以落地。人类的智慧，是从感觉—行动的回路里长出来的。婴儿在会说话前就会抓、会咬、会滚；消防员能在浓烟里凭身体与空间本能做出判断；我们停车时“看见”的是尺度、距离与动态，而非一串文字。这种把感知、几何、因果与时间编织在一起的能力，就是空间智能，也是我们思考的脚手架。今天的大语言模型擅长言辞，却常在空间任务上败下阵来：估计距离与朝向常常接近蒙；把物体在脑中“旋转”会出错；对物理后果的预测容易崩；生成视频几秒后就失去一致性。它们像“黑暗中的文字匠”，缺少与世界对齐的经验。想让AI真正“看见并会做”，就得给它一个身体。但“身体”不必只是一副金属骨骼，它可以是高保真的虚拟化身、是多模态传感器、是可以施加动作并得到即时反馈的接口。关键是闭环：感知输入—世界模型—行动输出—状态更新。为此，新的世界模型正成为核心引擎。与只预测下一个词不同，世界模型要生成几何、物理、语义一致的场景；能接收图像、视频、深度、文字、手势、动作等多模态提示；并在给定目标或动作时，输出下一帧世界的合理状态。只有这样，AI的“理解”才会带上重量、摩擦与后果。好消息是，具身与建模的融合正在迅速推进。有的系统用空间记忆保持场景持久性，实时生成还不丢失物体关系；有的模型不再只用文本去编码空间，而是引入带深度与位置的感知令牌，让推理能“量”到距离与尺度；还有团队把监督微调与分步强化结合，显著提高了长程任务的成功率。这些进展说明：一旦把“看—想—做”绑在一起，AI会更会想，也更会做。那“大脑就够了”的场景还多吗？当然。纯文本研究、代码生成、知识问答、策略规划等信息任务，主要依赖抽象能力，虚拟大脑已经大显身手。但一旦目标涉及安全、物理与人机协作——从家庭助理到仓储分拣、从手术辅助手到实验室自动化——没有具身的学习与评估，系统就难有可靠性与可迁移性。更重要的是，身体反过来塑造认知：传感器的视角、效应器的限制、时空记忆的负载，都会把“脑”的表示学压向更贴近真实因果的方向，带来更强的泛化能力。还会有人追问：如果谈到“感觉”和“意识”，AI是否必须拥有生物学意义的身体？哲学与神经科学仍在争论。有人认为硅基计算再像也缺少生物电化学的连续动态；也有人主张功能主义，只要交互与结构足够同构，主体性可被模拟。但在工程与应用层面，我们并不需要等到答案出现：哪怕只是高逼真的虚拟具身，加上遵循几何与物理约束的世界模型，也足以让AI在创造、机器人、科研和教育中成为可信赖的伙伴。所以，结论并不二选一。大脑让AI在信息世界里飞翔，身体让它在物理世界里落地。要让机器“懂我们所在的世界”，最低配是一个能行动、能感知、能被世界反作用的具身接口；要让它“懂我们关心的世界”，还需要与人类目标与伦理对齐的训练与治理。真正的问题不只是“AI要不要身体”，而是“我们希望它拥有什么样的身体、如何与之共生、共同建造怎样的世界”。当机器学会在空间中思考，我们也许会重新理解什么是智能、什么是创造，甚至，什么是“在世存在”。

AI模拟宇宙黑洞，能发现新物理定律吗？

在黑洞的边缘，连光都会转身离去，但数据不会。AI像一位耐心的“暗夜译者”，把望远镜碎片化的信号、狂暴等离子体的涡流、以及相对论扭曲的时空，拼成一幅能被人类理解的图景。它真的能从这些图景里，嗅出超越爱因斯坦的新物理吗？答案是：有机会，而且这扇门正在被一点点推开。AI最直接的能力，是把“可能的宇宙”批量生成并与真实观测逐一对照。研究团队已经用参数化的引力模型把不同理论下的黑洞外观“指纹化”，在三维磁化等离子体模拟中生成合成图像，然后用AI寻找差异：光环的亮暗不对称、环宽、喷流开角的细微变化，都可能对应不同的引力理论。随着成像分辨率提升，这些可检测的“指纹”将成为检验广义相对论或其替代理论的钥匙。 AI不止会“看图说话”，还会“带着不确定性推理”。在银河系中心的黑洞数据上，贝叶斯神经网络帮助天文学家把数以百万计的模型与观测对齐，给出自恰的置信区间。另一类神经网络从事件视界望远镜的数据中，推断出黑洞自旋可能接近极限、旋转轴指向地球，辐射更可能来自吸积盘的高能电子而非喷流。这不是凭空“猜答案”，而是在复杂模型族中做系统的模型比较和证据累积。要避免“算得很像但不可信”，物理先验必须嵌入AI。物理信息神经网络会把能量守恒、辐射转移等约束写进损失函数，保证模型不违背基本定律。更雄心勃勃的是神经—符号混合的方法：有研究用二阶导数矩阵分解变量耦合关系，再结合语言模型和搜索，直接从观测数据里推导出可解释、量纲一致的物理公式。这意味着AI不仅能拟合曲线，还可能帮助我们“读出定律”。 AI还能把“不可见”的新物理转化为“可测试”的信号。假如暗物质在超大质量黑洞附近形成致密分布，其湮灭辐射会点亮原本极暗的黑洞阴影中心。团队在磁约束吸积流（MAD）情景中构建了电子—正电子的传播与辐射框架，给出阴影亮度分布的可观测预言。如果未来高分辨率图像仍保持极暗，那反过来就会对暗物质湮灭截面给出前所未有的严格限制。AI在这里像一台“理论放大镜”，把微弱差异提炼为可证伪的实验目标。更长远看，空间智能与“世界模型”的思路正在让天文AI升级：不再只做静态识别，而是构建几何、物理、时间一致的可交互宇宙数字孪生。它可以同时吃下多模态输入——成像、极化、光谱、时间序列与文本注释——进行正演与反演，在云端调度望远镜把有限的观测时间投向“最能区分理论”的片刻与方位。黑洞不只是被“看见”，而是在持续被“理解”。当然，发现“新定律”不等于在数据里刷出一条好看的拟合。真正的突破必须满足三重要求：在多波段、多历元观测中稳定复现；能在独立设施与算法下被验证；与既有物理整体自洽。AI面临的难点同样严苛：成像数据的稀疏与退相干带来参数简并，仿真与现实的鸿沟容易诱发过拟合，黑箱决策削弱可解释性与可迁移性。这就需要不确定性量化、物理先验、开放数据与大规模计算的联动，也需要跨学科人才共同校准“算法的野心”和“自然的耐心”。回到问题本身：AI能发现新物理定律吗？它更像一台强有力的“假设引擎”和“证据压缩机”。它已经在为区分引力理论设计可观测的指纹，在暗物质与等离子体微物理中提出可检验的情景，在符号层面提炼出具有物理意义的结构。新的基本定律是否到来，还要看宇宙是否给出相反的证词；但如果现有理论有裂缝，AI极可能是第一个听见“崩裂声”的工具。也许宇宙的底层并非完全可算法化，这个设想本身就令人谦卑。但正因为如此，我们更需要用AI把人类的直觉与机器的计算联结起来，在事件视界的门槛上，把未知挪近一点点。让机器学会在空间与时间中“思考”，不是为了替我们回答一切，而是为了让我们敢于提出更好的问题——当光无法带回消息时，愿我们用智能去点亮另一条通向真理的路径。

AI看视频就能懂物理，还是得先上课？

把一台AI关在“电影院”里，让它无限刷视频，它就能悟出牛顿定律吗？就像让孩子看成千上万段倒水视频，不等于他会写出F=ma。视频是好老师，但不是全部的课堂。想让机器真正“懂物理”，得让它既看、又做、还能被世界“纠错”。靠看视频，AI已经学到不少。新一代视频和世界生成模型能合成逼真的片段，模仿水的涟漪、玻璃的折射、阴影的漂移，甚至保持片段级的时空一致性。长视频预训练与统一自回归架构，确实在多模态理解上跨了一大步。然而，一旦走出“镜头”，现实的门槛立刻升起：很多多模态大模型在距离、朝向、尺度估计上接近蒙对；“心里旋转”物体、找迷宫捷径、预测物体轨迹，常常崩盘；视频生成也常在十几秒后丢失物理与叙事的连贯性。专门的评测框架显示，即便是顶级闭源系统，也会在隐含语义跟随、材料属性与微妙因果上翻车。这些症状指向同一个根因：仅靠像素的统计学，还不等于世界的因果学。要跨过去，需要“世界模型”。与语言的下一词预测不同，世界不是一维序列，它有几何结构、物理定律、动态约束与可交互的因果闭环。真正的世界模型必须能生成遵守几何与物理的一致世界；能把图像、文字、深度、动作、触觉等多模态融合；还能在给定动作或目标时，预测世界的下一状态，并把过去、现在和将来连成一条可检验的轨迹。这要求模型内部有空间记忆与持久状态，而不只是帧与帧的“特效”过场。 “上课”的形式很多，不止黑板粉笔。给模型加入显式的物理信号与约束，就是一种课堂。比如有研究通过在一张普通照片上指定力与材质，就能生成符合物理规律的运动视频，这等于把“作用力”和“材料学”当作标签喂给AI；也有系统把语言模型和物理公式的发现过程结合，让机器不仅会算，还会“推”。在表征上，从把世界切成1D/2D token，转向3D/4D感知与记忆，用空间帧来维护场景持久性，是另一种课堂。数据也需要“课程表”：互联网级视频打地基，高质量合成数据补稀缺段落，深度和触觉为“实验课”，而更好的传感器与神经模拟器，让模型在更真实的沙箱里做实验。光上理论课不够，得实操。具身智能告诉我们，感知-行动的闭环才是学习物理的发动机。统一的强化学习与后训练能把“看会了”推动到“会用”，但奖励设计与信用分配很难、很嘈杂，于是模仿学习、约束优化、因果推断与符号先验，往往需要混合使用，像导师一样给出梯度之外的反馈。仿真与现实的“桥”必须加固：世界模型生成的高保真互动环境，可以海量拓展训练覆盖面，再把策略迁回现实，逐步打磨可靠性那一个个关键的“9”。一条务实的进路，是让AI经历“看—做—想—被纠错”的循环。先用长视频与多模态打下感知与常识；再用深度、触觉与动作序列补齐空间与动力学；在可控物理沙箱里做对抗与反事实实验，学会因果；引入守恒、约束和材料模型，让生成不再“穿帮”；最后用严苛的基准与现实任务迭代，把短期花活炼成长期能力。别忘了隐私与安全的边界，空间扫描和持续感知是把“双刃剑”，数据采集与使用需要制度化的护栏。所以答案并不极端。AI需要看海量视频，但也必须“上课”——课堂是几何与物理的结构化先验，是多模态与动作的闭环，是模拟与真实的往复，是奖励与规则的共同约束。最好的学习方式，像一个好奇的孩子：先看，再玩，接着问“为什么”，最后亲手去证伪与修正。当机器开始既能想象世界、又能遵守世界，我们离真正的空间智能就不远了。也许“理解物理”从来不是背诵定律，而是一场与自然的对话。让AI加入这场对话，既要给它眼睛，也要给它双手，更要给它一颗愿意求真的心。

新知 - 大圆镜｜从“文字囚徒”到“空间大师”：AI的下一次革命，始于理解真实世界

对抗知识焦虑，从看懂这条开始

App 下载

如果说今天的人工智能（AI）是一位才华横溢的诗人，那么他正被囚禁于一间黑暗的屋子里。他能引经据典，挥洒自如地写出优美的诗篇，甚至能根据你描述的“窗外阳光”，创作出一首关于光与热的颂歌。然而，他从未真正感受过阳光的温度，也无法告诉你，伸手触碰窗台需要几步。这位“文字囚徒”，正是当前以大语言模型（LLM）为代表的AI的生动写照：博学、雄辩，却与我们生活的物理世界完全脱节。

七十多年前，当图灵提出“机器能思考吗？”这一划时代的问题时，他或许已经预见到，真正的智能远不止于符号的运算。如今，这个问题有了新的注脚。AI领域的领军人物、被誉为“AI教母”的李飞飞发出了新的宣言：AI的下一个重大突破，在于赋予机器“空间智能”（Spatial Intelligence），让它们走出黑暗的房间，真正理解并参与到人类的现实与虚拟世界中。这不仅是她创办新公司World Labs的“北极星”，也被视为AI迈向通用智能（AGI）的最后一里路。

智能的基石：被遗忘的空间感

在我们讨论AI的“空间智能”之前，不妨先审视自身。我们每天都在不经意间施展着这种“超能力”：在拥挤的人行道上穿梭自如，精准地将钥匙抛给对面的朋友，或是凭感觉将车停入狭窄的车位。这种对距离、方位、动态和物理关系的直觉性理解，是人类认知能力的基石。从古希腊的埃拉托斯特尼利用日影测量地球周长，到沃森和克里克搭建实体模型揭示DNA双螺旋结构，人类文明的每一次飞跃，都离不开在三维空间中思考、创造和行动的能力。

然而，今天的AI在这方面却像个蹒跚学步的婴儿。最先进的多模态大模型，在估计物体大小、预测基本物理现象、甚至在简单的迷宫中找到捷径时，表现往往不比随机猜测好多少。AI生成的视频，尽管惊艳，却常在几秒后失去空间逻辑的一致性，出现物体凭空消失或违反重力的“穿模”现象。正如哲学家维特根斯坦所言：“我语言的极限，就是我世界的极限。”对于AI而言，这个“语言”构成的世界，显然还不够完整。AI需要挣脱一维文本序列的束缚，拥抱一个由物理、几何和动态规则构成的三维世界。

“世界模型”：为AI构建一个物理沙盒

如何让AI走出“洞穴”？李飞飞和众多顶级科学家给出的答案是：构建“世界模型”（World Models）。这是一种全新的生成式AI，其雄心远超LLM。它不仅要理解语言和图像，更要理解世界运行的底层逻辑——物理定律、空间几何和动态交互。

一个真正的世界模型必须具备三大核心能力：

生成性（Generative）： 它能凭空创造出符合物理和几何一致性的三维世界，无论是复刻现实，还是构建想象中的场景。
多模态（Multimodal）： 它能接收并理解各种形式的输入，包括文字、图片、视频、深度图乃至人类的手势和动作。
交互性（Interactive）： 它的输出不是静止的画面，而是世界的下一个状态。当你对这个世界施加一个“动作”时，它能预测并生成合乎逻辑的后续变化。

这无疑是一项艰巨的挑战。世界的维度远比语言复杂，其背后是无数物理定律的约束。为此，全球顶尖的AI公司，从谷歌DeepMind、Meta到英伟达，都在积极布局。李飞飞的World Labs更是推出了一个名为RTFM（实时帧模型）的惊人成果。它仅需一块主流GPU，就能根据一张2D图片实时生成一个可供用户自由探索、且永久保持一致性的3D世界。这就像给AI配备了一个“可学习的渲染器”，让它第一次拥有了低成本、高效率构建虚拟世界的能力。同时，中国的群核科技也发布了专注于室内场景的SpatialLM和SpatialGen模型，并宣布开源，旨在解决AI视频生成中普遍存在的“时空不一致”难题，推动整个生态的共建。

产业交锋：自动驾驶的“路线之争”

空间智能并非空中楼阁，它正引发一场深刻的产业变革，其中最激烈的战场莫过于自动驾驶。在这里，两条技术路线正在激烈交锋。

一方是以视觉-语言-行为大模型（VLA）为代表的阵营，如小鹏汽车。他们主张，通过将视觉信息“翻译”成语言，让大模型进行“思考”和推理，再生成驾驶行为。这种方式利用了LLM强大的逻辑推理能力，形成可解释的“思维链”。

另一方则是“世界模型”的拥护者，如蔚来和华为。他们认为，人类开车并非依靠语言，而是基于对驾驶环境的直觉理解和预测。因此，AI也应跳过语言这个“中间商”，直接从传感器数据构建一个内在的世界模型，并生成驾驶动作。这是一种更接近人类直觉的“端到端”模式。

这场“路线之争”没有绝对的对错，背后是不同公司对技术成熟度、算力成本和最终愿景的权衡。但无论哪条路径，其核心目标都是一致的：让汽车不仅能“看见”路，更能“理解”整个交通环境的动态变化。高德地图的全面AI化转型，正是将自身积累的海量时空数据，开放为赋能行业的“空间智能”底层能力，其与小鹏Robotaxi的合作，预示着一个由空间智能驱动的出行新生态正在形成。

创想无界：重塑创意、科学与生活

当AI真正掌握了空间智能，其影响力将远远超出驾驶。它将成为一把钥匙，开启一个虚实融合的新纪元。

在创意领域，电影制作人、游戏设计师和建筑师将成为新世界的“创世神”。李飞飞团队的Marble平台，已经能让创作者用一句话或一张图，快速生成可供探索的3D世界，极大地降低了创意表达的门槛。未来，每个人都能成为自己故事的导演，构建个性化的互动叙事体验。

在机器人领域，这是实现“具身智能”的最后一块拼图。机器人将能在世界模型构建的虚拟环境中进行数百万次的训练，学习如何在复杂的现实世界中导航、抓取和协作，而无需承担现实世界试错的高昂成本。从工业生产线上的精密操作，到家庭中的贴心陪伴，拥有空间感的机器人将真正融入我们的生活。

在科学研究中，AI将成为科学家的“超级实验室”。清华大学的PhyE2E模型已经能从观测数据中自动推导出空间物理公式，展现了AI在基础科学发现中的巨大潜力。未来，科学家可以在AI构建的数字孪生世界中模拟从分子相互作用到气候变化的复杂系统，以前所未有的速度和规模进行实验，加速人类知识的边界拓展。

结语：AI的“成人礼”

从图灵的沉思，到ImageNet让机器睁开“眼睛”，再到大语言模型赋予其“口才”，AI的进化之路，始终在追寻对世界更深层次的理解。如果说语言能力是AI的“少年时代”，那么掌握空间智能，将是它迈向成熟的“成人礼”。

这不仅是一场技术革命，更是一次深刻的哲学回归。它要求AI不再仅仅处理人类创造的抽象符号，而是去学习和理解那个独立于人类之外、由物理法则主宰的客观世界。李飞飞始终强调，AI的目标是“增强而非取代”人类。一个真正理解我们所处空间、能够与我们协同创造的AI，才能成为人类智慧的“能力放大器”，帮助我们解决从疾病到气候变化的宏大挑战。

这趟从“文字”到“世界”的旅程，道阻且长，但方向已经明确。当AI最终走出那间黑暗的屋子，迎接它的，将不仅是三维世界的阳光，还有一个与人类共创的、充满无限可能的未来。