对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
物理规则建模|3D动画生成|世界模型|Viggle AI|大语言模型|人工智能
2024年夏天,一款AI工具只用四个月就把Discord社区做到450万人——这速度比当年Midjourney还猛。用户们用它让漫威英雄跳TikTok热舞,让严肃教授做搞怪鬼脸,随便拼贴几下就能生成丝滑的3D动画。但这款叫Viggle AI的工具,爆火的根本不是“画得像”,而是它第一次让AI跳出了像素拼接的怪圈,真的“懂”了物理世界的空间、运动和因果逻辑。这背后是一个被忽视了11年的技术方向:世界模型——一种让AI像人类一样在脑子里构建世界规则的技术。为什么这个冷门方向突然爆发?它会把AI带向哪里?
过去AI生成视频,本质上是在“拼像素”——把海量视频里的画面碎片重新组合,看起来真实,但经常出现穿帮:比如人物的脚突然陷进地面,手臂扭曲成违反骨骼结构的角度。这是因为它只学到了视觉表面的规律,没理解背后的物理规则。

现在做世界模型的团队,分成了三条路线:
第一条是“像素派”,比如Google的Imagen Video、Meta的Make-a-Video,靠扩散模型生成高清视频,但解决不了物理一致性问题,生成的画面美却“不真实”。
第二条是“3D引擎派”,把AI塞进传统3D软件里,比如Maya、Blender里的AI骨骼绑定工具,本质是给旧系统打补丁,专业门槛依然很高,普通用户摸不懂。
第三条是“数据驱动派”,也就是Viggle AI走的路:用一种叫World Token的特殊编码,把真实世界里的物体位置、运动轨迹、因果关系都变成AI能理解的“积木”。这些积木不像语言模型的Token那样只是文字符号,而是自带“在空间里的位置”“会怎么动”“和其他物体的关系”这些属性。

你可以把它想象成给AI一套“物理乐高”:每个积木都知道自己是桌子还是人,知道桌子会稳稳待在地上,人能在上面走,不会穿过去。AI用这些积木搭建的虚拟世界,从根上就符合物理规则,不会出现脚陷进地面的低级错误。
Viggle AI的创始人楚航,在多伦多大学读博时就扎进了3D生成的冷门方向——那时候连“世界模型”这个词都还没出现。之后11年,从Google、NVIDIA到Facebook、Autodesk,他换了四家公司,却始终没离开这个赛道。
他的核心理念来自费曼的名言:“我不能创造的,我就无法理解。”在他看来,AI要真正理解世界,不能靠“看”海量视频,得靠“自己建”世界——就像人类小时候搭积木、玩过家家,在创造中理解规则。
Viggle AI的JST架构,就是把这个理念落地的结果:它先从海量视频里学习物体的空间结构和运动规律,把这些规律变成World Token,再用这些Token生成新的内容。用户上传一张静态图片,选择一个动作模板,AI不是直接“画”出动作,而是用World Token给这个角色“装”上符合物理规则的骨骼和运动逻辑——就像给玩偶安上关节,让它能自然地跳舞、走路。

这种方式带来了三个关键突破:一是可控性,用户能精准控制角色的动作,不会出现AI“自由发挥”的偏差;二是一致性,角色在整个动作过程中不会变形、穿帮;三是实时性,端侧推理让用户在手机上就能秒生成,不用等云端渲染。这三个特点,刚好踩中了短视频时代用户“快、准、玩”的需求,才让它在四个月里吸引了450万用户。
Viggle AI爆火的另一个秘密,是它打通了“技术-用户-技术”的正反馈闭环。
传统AI工具是“我生产,你使用”的单向模式,但Viggle AI把用户变成了模型的“共建者”。用户在玩的过程中,会自发创造出各种玩法:比如把特朗普的脸和芭蕾舞动作结合,把猫咪变成超级英雄。这些用户生成的内容,又会变成模型的训练数据——AI会从这些真实的用户交互里,学习到什么是“有趣”,什么是符合人类审美的“自然”。
更重要的是,它把“创作”和“玩”的边界彻底模糊了。过去做3D动画,得先学建模、绑定骨骼、调动作,门槛高到普通人望而却步;现在用户只要上传一张图片,点几下就能生成动画,在“玩”的过程中不知不觉就完成了创作。这种“先玩后造”的模式,让创作从专业人士的特权,变成了所有人的娱乐。
当然,世界模型的发展还面临不少挑战:比如需要海量的高质量3D数据,比如要解决长期推理的问题——现在AI还只能理解短时间内的因果关系,比如“推桌子,桌子会动”,但还理解不了“今天没浇水,花明天会枯萎”这种长时序的因果。但不可否认的是,它已经给AI打开了一扇新的大门:从“模拟视觉”到“理解世界”。
当我们还在惊叹AI画的画有多像时,世界模型已经悄悄把AI从“像素画家”变成了“规则建筑师”。它不再是只会模仿的工具,而是开始尝试理解世界运行的底层逻辑——这才是AI真正走向通用智能的起点。
楚航说,他做世界模型的目标,是“让每个人都能获得创作的快乐”。但这个技术的潜力远不止于此:它能让自动驾驶汽车更准确地预判行人的动作,能让机器人在复杂环境里更灵活地工作,甚至能让我们在虚拟世界里构建一个和真实世界一样遵循物理规则的平行宇宙。
懂规则的AI,才是能真正融入世界的AI。 未来的AI,不会只是我们屏幕里的一个工具,而是会变成我们和世界交互的新方式——就像现在的手机一样,成为我们生活的一部分。