AI的视觉错觉，能骗过你的大脑吗？

能。AI 现在不只是“把图做像”，而是成体系地对准人类视觉的弱点来造假象。心理物理实验已显示，经优化的图像在限时观看下能显著诱导人类做出与模型一致的错误判断。结合可微渲染与三维一致性，AI 会把透视、阴影、遮挡、材质等线索同时做对；再叠加更逼真的真实域外观与合乎物理的运动，你平常用来分辨真假的“证据链”会被一并满足，因此更容易被骗过。但错觉有天花板：多数二维合成难以同时骗过双目视差与运动视差——你换个角度、移动身体或改变光源，伪装常会破功。真正棘手的是多视角一致的视频与交互内容（如实时新视角与高斯场景），它能随你移动更新画面，把“动视差”也伪造出来，更能迷惑大脑。实用对策：多角度核验、盯反射与接触阴影、放慢决策节奏；机器侧用几何/物理一致性与跨模态比对来“反错觉”。

一张照片造个世界，谁会因此失业？

最先被冲击的是“长尾且重复”的3D流水线活：电商/家居的低模建模与贴图清洗、UV与重拓扑、扫描数据清理、背景道具与预演灰模、逐镜头相机解算，以及靠手工调参的NeRF/GS“优化师”。原因很直白：单卡H100可达30+FPS的新视角合成让分镜与机位试错不必再“摆场”，分钟级前馈4D把逐场景物理参数调校压缩成一次推理，自监督重建免去了位姿/深度标注班组，单图3D在嘈杂场景也能直接产出可用资产，挤压外包工作室与多机位摄影棚的生计。真正岌岌可危的不是“3D艺术”，而是“3D体力活”。按图堆网格、逐镜头Matchmove、批量重光照修片，这些都会被“一张照片造个世界”的链路侵蚀。仍具韧性的，是需要审美与约束的岗位：世界观与风格设定、英雄资产与可制造精度、物理/材质监督、技术美术与管线工程。工作重心会从“做模型”转向“做判断”——数据策展、物理可行性把关、提示词与控制信号编排、合成质量与安全评测。换句话说，失业的将是重复劳动，不是创造力。

AI能想象出不存在的物理定律吗？

能，但“能想象”不等于“能成立”。当下的神经-符号与视频自监督体系，已能从观测中内化物理直觉，并用程序/方程表达出来；符号回归、稀疏动力学识别、哈密顿/拉格朗日网络一类方法，确实能自动写出守恒律或新形态方程，甚至构造与现有世界相悖的“假说宇宙”。这类生成在探索空间里很有价值：它能提出人类未必会先想到的备选规律与反事实设定。问题在于可证伪性。基准显示通用大模型在物理推理上仍不可靠，未经约束的模型极易产生日内自洽、跨域失效的“伪定律”。要把“想象”变成科学产出，必须把先验与验证绑死：量纲与对称性约束、Noether 守恒、单位检查；与高保真（可微或黑箱）模拟器闭环做贝叶斯比较与反事实实验设计；最后在真实仪器或野外数据上过可重复的失效测试。工程上，可用偏好优化与物理模拟将“貌似合理”的生成往守恒与稳定性方向拉；科研上，让代理在“假说→仿真→反例”回路中自动淘汰。结论是：AI当然能编造不存在的物理定律，但只有经得起数据与实验反攻的那一小撮，才配叫“新定律”。

新知 - 大圆镜｜3D视觉不再只画样子，要懂物理和空间了

对抗知识焦虑，从看懂这条开始

App 下载

从“猜图像”到“建世界”：自监督重建的破局

过去训练3D模型，得先给AI喂大量标注好的3D数据——比如告诉它“这是一个杯子的侧面”“这是沙发的深度图”，成本高得离谱。CMU、Adobe和哈佛团队提出的E-RayZer，直接跳过了人工标注这一步：给它喂同一场景的多张普通照片，它会自动估算相机角度，用一个个3D高斯点拼出场景的立体结构，再把这些结构“渲染”成新视角的图像，最后通过和真实照片的差异自己修正错误。你可以把这个过程想象成：给AI看从客厅门、沙发旁、窗户边拍的三张照片，它自己琢磨出客厅的布局，然后画出站在电视前能看到的画面。如果画出来的电视位置和真实照片对不上，它就调整自己对空间结构的理解。

这种“自监督3D重建”的核心，是逼AI学懂几何关系，而不是死记硬背图像的像素规律。实验显示，用这种方法训练的模型，在相机位姿估计、深度预测上的表现，比只学图像相似性的模型提升了近20%。更重要的是，它让AI第一次不用依赖人类标注，就能自己“悟”出3D世界的底层逻辑。

跳过“搭积木”：用3D感知直接画新视角

传统3D建模像搭积木，得先把物体的每个面都建出来，才能渲染新视角的画面——这就导致渲染一张图要等好几秒，根本没法实时用。牛津大学和Meta团队的LagerNVS，干脆跳过了“搭积木”的步骤：它先让AI从照片里提取带有3D信息的特征，比如“这个地方是桌子的边缘，从任何角度看都应该是直的”“这个曲面是杯子的弧度，不同视角下的曲率要一致”，然后直接用这些特征生成新视角的图像。你可以把它理解成：AI记住的不是桌子的每个面，而是“桌子是有四条腿、平桌面的立体物”这个“3D感知”，不管从哪个角度看，它都能根据这个感知画出符合逻辑的桌子。在单张H100显卡上，它能以30帧以上的速度实时渲染新视角画面，比传统NeRF方法快了几十倍。但这一方法也有局限：它的3D逻辑是隐含在特征里的，不像显式重建那样能直接编辑物体的结构。比如你想把桌子的腿改粗，显式重建模型能直接调整3D结构，而LagerNVS得重新生成整个画面，灵活性上打了折扣。

从静态到动态：让AI懂物理

如果说前面的研究解决了“物体长什么样”的问题，那北京理工大学团队的PhysGM，就是要解决“物体怎么动”的问题——而且得符合物理规律。过去要让AI生成动态的3D物体，得先建好静态模型，再手动设置物理参数，比如“这个气球是橡胶做的，捏一下会变形”，最后再模拟运动，整个过程要花几个小时。 PhysGM则是“一步到位”：给它一张气球的照片，它不仅能重建出气球的3D形状，还能直接预测出气球的材质、弹性等物理属性，然后用物理模拟算法生成气球被风吹动、被手挤压的动态画面，整个过程只需要1分钟。它甚至能通过人类偏好数据微调模型，让生成的动态更符合真实观感——比如气球被戳破时，碎片会向四周飞溅，而不是凭空消失。

不过目前PhysGM还只能处理单个物体的动态，对于多个物体的交互，比如杯子掉在桌子上的碰撞反弹，还很难精准模拟。这也是未来3D视觉要攻克的核心难题：让AI理解不同物体之间的物理关系。

当我们谈论3D视觉的进化时，本质上是在谈论AI认知方式的转变：从“看图像的奴隶”，变成“理解世界的学习者”。过去AI的3D能力，更像一个只会临摹的画家，画得再像也不知道自己画的是什么；而现在的AI，开始像一个建筑师，先在脑子里搭好结构、算好力学，再动手“画”出符合逻辑的画面。更值得关注的是，这些技术的落地速度正在加快：SAM 3D已经能从普通照片里重建出可用的3D模型，Realiz3D解决了3D生成的“塑料感”问题，NERFIFY则把论文变成可运行代码的时间从几周压缩到了几分钟。 懂空间，晓物理，才是AI看世界的正确方式。 当AI真正理解了3D世界的规律，它才能在自动驾驶里准确判断障碍物的距离，在机器人抓取时避开易碎的物品，在元宇宙里创造出和真实世界一样可信的虚拟空间。

从“猜图像”到“建世界”：自监督重建的破局

跳过“搭积木”：用3D感知直接画新视角

从静态到动态：让AI懂物理

评论