AI让游戏创作免费，谁来定义下个爆款？

当生成几乎免费，“爆款”不再由最会做内容的人定义，而是由最会分发、最会学习的人定义。掌握推荐算法与用户关系的平台，以及能把每次点击、每帧操作转成训练信号的世界引擎，才有权决定什么被看见、被留存、被复用。短视频平台、UGC游戏平台、社交分发入口与大型IP方在共同塑形：前者用榜单与算法把“可玩+可二创”的模因推到水面；后者用授权红线圈定可爆的题材池。KOL与社区能点火，但能否续燃，取决于平台的创作者分成、实时A/B与低延迟体验——这些规则本身就是新的“品味模型”。所以，下个爆款的定义权，归属于“分发-反馈-激励”闭环的掌控者；谁拿到规模化交互数据与支付开关，谁就写下爆款标准。

虚拟世界的物理，需要和现实一样吗？

不需要一模一样，关键在“用途”。面向娱乐与AI原生游戏，最优解是“可信而非真实”——让玩家直觉里说得通、手感顺、反馈稳。很多成功作品都会“造假物理”：夸张的受击、时间拉伸、空中“延迟坠落”（coyote time）、轻微“磁吸”判定……这些都违背严格牛顿力学，却更沉浸。只要守住宏观因果、角色与场景的一致性，玩家更在乎可控性、稳定帧率与低延迟，而非精确摩擦系数。但在机器人、自动驾驶、工程培训等场景，物理越接近现实越好，否则会加剧“sim-to-real”落差。这类系统需要可验证的接触、摩擦与动力学模型，常用物理信息网络、硬约束与域随机化来保证策略可迁移。折中之道是分层与软硬约束混合：底层守住保守量与碰撞拓扑，上一层允许风格化偏移，既保因果，又给玩法松弛度。像Viggle这类“for fun”的世界模型，会更优先“可控性、一致性与低延迟”，选择“可信即足”的物理。

当AI能完美复刻你，世界会更真实吗？

不会。AI“完美复刻”更可能让世界“更像样”，而非更真实。它提升互动与沉浸，但“真实”依赖可验证性与后果约束。现实数据在倒逼这一点：一分钟语音即可高拟真克隆；香港企业曾在深度伪造视频会议中损失约2亿港元；2024年全球67.4%的钓鱼已涉及AI。信任基线下移，“现实感”被转换成一笔额外的鉴真成本。要让分身推动“更真实”，至少得满足持续的自传记忆、因果与具身对齐，并与现实责任绑定——而最后一环最难复制。社会层面需把关：显隐双标注与可溯源元数据成默认设置、个人明示授权与收益分配、数字遗嘱管理，平台用“AI对抗AI”实时甄别。可预见的是，“真人在场”将成为稀缺信号；真实性最终由制度与我们的使用方式决定，而不是由像素决定。

新知 - 大圆镜｜AI不再拼画画，开始学懂真实世界的物理规则

对抗知识焦虑，从看懂这条开始

App 下载

2024年夏天，一款AI工具只用四个月就把Discord社区做到450万人——这速度比当年Midjourney还猛。用户们用它让漫威英雄跳TikTok热舞，让严肃教授做搞怪鬼脸，随便拼贴几下就能生成丝滑的3D动画。但这款叫Viggle AI的工具，爆火的根本不是“画得像”，而是它第一次让AI跳出了像素拼接的怪圈，真的“懂”了物理世界的空间、运动和因果逻辑。这背后是一个被忽视了11年的技术方向：世界模型——一种让AI像人类一样在脑子里构建世界规则的技术。为什么这个冷门方向突然爆发？它会把AI带向哪里？

从“拼像素”到“建规则”，世界模型的三条赛道

过去AI生成视频，本质上是在“拼像素”——把海量视频里的画面碎片重新组合，看起来真实，但经常出现穿帮：比如人物的脚突然陷进地面，手臂扭曲成违反骨骼结构的角度。这是因为它只学到了视觉表面的规律，没理解背后的物理规则。

现在做世界模型的团队，分成了三条路线：

第一条是“像素派”，比如Google的Imagen Video、Meta的Make-a-Video，靠扩散模型生成高清视频，但解决不了物理一致性问题，生成的画面美却“不真实”。

第二条是“3D引擎派”，把AI塞进传统3D软件里，比如Maya、Blender里的AI骨骼绑定工具，本质是给旧系统打补丁，专业门槛依然很高，普通用户摸不懂。

第三条是“数据驱动派”，也就是Viggle AI走的路：用一种叫World Token的特殊编码，把真实世界里的物体位置、运动轨迹、因果关系都变成AI能理解的“积木”。这些积木不像语言模型的Token那样只是文字符号，而是自带“在空间里的位置”“会怎么动”“和其他物体的关系”这些属性。

你可以把它想象成给AI一套“物理乐高”：每个积木都知道自己是桌子还是人，知道桌子会稳稳待在地上，人能在上面走，不会穿过去。AI用这些积木搭建的虚拟世界，从根上就符合物理规则，不会出现脚陷进地面的低级错误。

11年磨一剑，从实验室到爆火的底层逻辑

Viggle AI的创始人楚航，在多伦多大学读博时就扎进了3D生成的冷门方向——那时候连“世界模型”这个词都还没出现。之后11年，从Google、NVIDIA到Facebook、Autodesk，他换了四家公司，却始终没离开这个赛道。

他的核心理念来自费曼的名言：“我不能创造的，我就无法理解。”在他看来，AI要真正理解世界，不能靠“看”海量视频，得靠“自己建”世界——就像人类小时候搭积木、玩过家家，在创造中理解规则。

Viggle AI的JST架构，就是把这个理念落地的结果：它先从海量视频里学习物体的空间结构和运动规律，把这些规律变成World Token，再用这些Token生成新的内容。用户上传一张静态图片，选择一个动作模板，AI不是直接“画”出动作，而是用World Token给这个角色“装”上符合物理规则的骨骼和运动逻辑——就像给玩偶安上关节，让它能自然地跳舞、走路。

这种方式带来了三个关键突破：一是可控性，用户能精准控制角色的动作，不会出现AI“自由发挥”的偏差；二是一致性，角色在整个动作过程中不会变形、穿帮；三是实时性，端侧推理让用户在手机上就能秒生成，不用等云端渲染。这三个特点，刚好踩中了短视频时代用户“快、准、玩”的需求，才让它在四个月里吸引了450万用户。

从“工具”到“伙伴”，用户体验的闭环革命

Viggle AI爆火的另一个秘密，是它打通了“技术-用户-技术”的正反馈闭环。

传统AI工具是“我生产，你使用”的单向模式，但Viggle AI把用户变成了模型的“共建者”。用户在玩的过程中，会自发创造出各种玩法：比如把特朗普的脸和芭蕾舞动作结合，把猫咪变成超级英雄。这些用户生成的内容，又会变成模型的训练数据——AI会从这些真实的用户交互里，学习到什么是“有趣”，什么是符合人类审美的“自然”。

更重要的是，它把“创作”和“玩”的边界彻底模糊了。过去做3D动画，得先学建模、绑定骨骼、调动作，门槛高到普通人望而却步；现在用户只要上传一张图片，点几下就能生成动画，在“玩”的过程中不知不觉就完成了创作。这种“先玩后造”的模式，让创作从专业人士的特权，变成了所有人的娱乐。

当然，世界模型的发展还面临不少挑战：比如需要海量的高质量3D数据，比如要解决长期推理的问题——现在AI还只能理解短时间内的因果关系，比如“推桌子，桌子会动”，但还理解不了“今天没浇水，花明天会枯萎”这种长时序的因果。但不可否认的是，它已经给AI打开了一扇新的大门：从“模拟视觉”到“理解世界”。

当我们还在惊叹AI画的画有多像时，世界模型已经悄悄把AI从“像素画家”变成了“规则建筑师”。它不再是只会模仿的工具，而是开始尝试理解世界运行的底层逻辑——这才是AI真正走向通用智能的起点。

楚航说，他做世界模型的目标，是“让每个人都能获得创作的快乐”。但这个技术的潜力远不止于此：它能让自动驾驶汽车更准确地预判行人的动作，能让机器人在复杂环境里更灵活地工作，甚至能让我们在虚拟世界里构建一个和真实世界一样遵循物理规则的平行宇宙。

懂规则的AI，才是能真正融入世界的AI。 未来的AI，不会只是我们屏幕里的一个工具，而是会变成我们和世界交互的新方式——就像现在的手机一样，成为我们生活的一部分。

从“拼像素”到“建规则”，世界模型的三条赛道

11年磨一剑，从实验室到爆火的底层逻辑

从“工具”到“伙伴”，用户体验的闭环革命

评论