新知 - 大圆镜｜浏览器渲染瓶颈被攻克：Visionary如何解锁世界模型实时交互？

对抗知识焦虑，从看懂这条开始

数字世界的“最后一公里”

想象一个触手可及的数字孪生世界：工程师在浏览器标签页中实时调试产线上的机器人，设计师与全球同事共同漫步于虚拟建筑模型，学生则在动态复现的历史场景中身临其境。这个未来离我们似乎很近，却始终隔着一层看不见的墙——Web端渲染能力的瓶颈。长期以来，我们最常使用的信息入口“浏览器”，在处理复杂、动态的3D世界时，就像一条拥堵的单行道，无法承载“世界模型”（World Model）这一前沿AI技术奔涌而来的数据洪流。

2025年，人工智能界见证了从“语言智能”到“物理智能”的历史性跨越，以李飞飞团队WorldLabs的Marble为代表的世界模型引爆热潮，它们试图在计算机中构建整个世界的模拟。然而，当Marble首次将基于3D高斯泼溅（3DGS）技术构建的3D世界搬入浏览器时，兴奋之余，一个残酷的现实也随之浮现：其依赖的WebGL渲染器SparkJS，在面对包含数百万个细节的大场景时，性能急剧下降。其瓶颈在于，所有用于排序和渲染准备的繁重计算都压在了CPU的单线程上，导致画面卡顿、交互延迟，更无法接入需要逐帧实时推理的动态模型。世界模型的可视化与交互，这“最后一公里”，被牢牢卡在了Web端。

一场颠覆性的技术换代：Visionary登场

就在近日，由上海人工智能实验室钟志航团队联合四川大学、东京大学等多家顶尖机构共同完成的开源项目Visionary，为这个问题给出了一个截然不同的答案。它不是对现有技术的修补，而是一场彻底的架构革命。Visionary宣布：基于WebGPU与ONNX，在浏览器中实现了真正的动态3DGS乃至4DGS（即包含时间维度）的实时渲染，并在多项测试中全面超越了SparkJS。

Visionary的定位并非“又一个3DGS查看器”，而是一个面向世界模型和空间智能的Web原生渲染基座。它的核心武器有两件：

WebGPU原生架构：如果说WebGL是给GPU下达高级、模糊指令的“项目经理”，那么WebGPU则是直接与GPU硬件沟通的“底层工程师”。它允许开发者将海量计算任务（如排序、预处理）从拥堵的CPU主线程中解放出来，交给成千上万个GPU核心并行处理，并且支持在WebWorker中进行多线程调度。这相当于将单行道拓宽为拥有无数条车道的高速公路。

ONNX驱动的统一接口：ONNX（开放神经网络交换格式）像一个“通用翻译器”。Visionary创新性地提出了“高斯生成器合约”（Gaussian Generator Contract），将所有复杂的3DGS、4DGS或数字人模型，统一打包成标准的ONNX格式。渲染器不再需要关心模型内部的复杂算法，每一帧只需向ONNX模型发送相机位置、时间等简单的控制信号，模型就会高效地计算出完整的场景数据。这使得接入任何新的动态模型都变得即插即用，极为灵活。

不止是更快，更是体验的飞跃

实验数据清晰地展示了这场技术换代的威力。在处理包含数百万高斯点的典型场景时，SparkJS的性能瓶颈集中在CPU排序阶段，而Visionary将这一核心负载完全转移至GPU，极大地降低了端到端延迟，实现了肉眼可见的流畅。

更重要的是，Visionary带来的不仅仅是速度。它采用逐帧GPU全局排序，彻底根除了SparkJS在视角快速变化时因“懒排序”（lazy sorting）而产生的视觉伪影和闪烁问题。无论用户如何快速地拖动、旋转视角，画面始终保持稳定和精确。同时，在多个模型混合的复杂场景中，它也能保证透明物体渲染的正确性，避免了其他方案中常见的混合错误。这意味着，用户看到的不仅是一个更快的世界，更是一个视觉上更正确、更可信的世界。

从“观看”到“交互”：为世界模型注入灵魂

Visionary的出现，其深远意义在于它为世界模型打开了从“静态观看”到“动态交互”的大门。在此之前，Web端的世界模型更像是一幅幅精美的3D“照片”，而现在，它们可以成为一个活生生的、可交互的“世界”。

对研究者而言：任何新的3DGS变体算法，只要能导出为ONNX格式，就能立刻在浏览器中复现、对比和展示，极大地加速了学术交流和迭代的效率。
对创作者而言：无需安装任何笨重的专业软件，在浏览器中就能完成对动态3D场景的编辑、动画录制和最终渲染，创作门槛被前所未有地拉低。
对工业界而言：这正是数字孪生、智能制造、扩展现实（XR）和具身智能等领域梦寐以求的基础设施。无论是模拟整个城市的交通流，还是训练机器人在虚拟工厂中执行任务，Visionary都提供了一个低成本、高效率、易于部署的实时可视化与交互平台。

通往统一世界模型的第一步

Visionary团队表示，这仅仅是迈向统一世界模型框架的第一步。他们的蓝图远不止于此，未来将探索：

物理交互增强：融合碰撞检测，让虚拟世界中的物体遵循真实的物理规律。
物理感知建模：结合更复杂的物理模拟方法，让模型能够理解并预测真实世界的动力学。
空间智能体：接入多模态大模型，让AI智能体能够在渲染出的3D空间中进行推理和交互。
下游应用桥接：为具身AI提供从模拟到现实（Sim-to-Real）的无缝迁移支持。

世界模型的终极竞争，最终会回到一个核心问题：谁能把复杂的世界，以稳定、快速、低门槛的方式呈现并交付给用户和AI？Visionary用WebGPU和ONNX的强大组合给出了响亮的回答：把世界模型，真正带到每个人的Web浏览器中。这场始于浏览器的渲染革命，正为我们开启一个可实时交互的动态数字新纪元。

脉络

1956年

约翰·麦卡锡等人在达特茅斯会议提出“人工智能”概念，开启了让机器模拟人类认知、构建世界模型的探索。

1971年

James L. McClelland与David E. Rumelhart等提出联结主义（Connectionism）思想，推动用神经网络表征外部世界信息。

1981年

Judea Pearl提出贝叶斯网络，成为概率世界模型的理论基础，极大推动了智能系统对世界不确定性的建模。

1995年

Richard Sutton等提出强化学习中的“模型”与“无模型”方法，首次系统性区分了世界模型在智能体决策中的作用。

2006年

Geoffrey Hinton等提出深度置信网络，推动深度学习技术发展，为更复杂的世界模型构建提供基础。

2016年3月

DeepMind的AlphaGo击败李世石，展示了结合神经网络与蒙特卡洛树搜索的复杂世界模型能力。

2018年6月

DeepMind发布“World Models”论文（Ha和Schmidhuber），首次提出用VAE+RNN+控制器端到端学习环境的表征和动态，推动了世界模型的系统化研究。

2020年6月

Google Brain发布Dreamer算法（Danijar Hafner等），通过学习潜在动力学模型提升强化学习智能体的效率，成为世界模型领域的重要突破。

2022年11月

OpenAI发布GPT-3，展现了大规模语言模型在理解和模拟世界知识方面的能力，引发世界模型与认知建模的讨论。

2023年4月

DeepMind发布“Generative Agents”论文，利用大语言模型驱动的虚拟智能体展示了复杂的社会世界模型能力。