AI视频和游戏，未来谁会吞噬谁？

当屏幕开始“回嘴”，一切媒介都会改头换面。想象一下：你正在看一段追逐戏，随口说一句“把雨下大点、主角向左拐”，两秒后画面真的照做了。视频不再是被动播放的文件，而是一块可以触摸、可对话的“世界”。当这一天到来，视频与游戏的边界，会像片尾字幕一样缓缓淡出。与其问“AI视频和游戏，未来谁会吞噬谁”，不如说：实时可交互的“世界模型引擎”，正在吞噬两者的旧边界。最新的信号已经很清晰——爱诗科技拿下3亿美元C轮，PixVerse R1把“离线渲染”升级成1080P、约2秒响应延迟的实时交互视频流；自研的瞬时响应引擎把几十步计算压到1–4步。这不是在做更花哨的片段，而是在把视频升级成可操纵的世界。与之呼应，谷歌的Genie 3以24fps合成可编辑的虚拟环境，DeepMind的实时引擎在单芯片上跑出可交互画面。技术路线也在收敛：从U-Net转向DiT，靠注意力机制捕捉跨帧的长程时空关联，让“动作连贯、光影一致、物理可信”成为默认能力。产业侧的脚步同样在加速。游戏研发环节AI应用率已超过八成，静态美术几乎成标配；用AI做原画、动捕、模型，效率提升动辄几十倍，生成一个5秒镜头只要5–10秒。一年里标明使用AI的Steam游戏破万款，头部大厂在自研与工具化上齐头并进。与此同时，面向C端的AI视频产品跑通了用户规模与营收：PixVerse全球用户过亿、MAU超1600万；快手“可灵”和MiniMax“海螺”验证了商业闭环。资本也读懂了方向——这轮进入的不只是财务投资人，还有影视与游戏的产业资本，押注的正是“视频变界面、内容可交互”的大迁移。创作范式正在换脑。过去我们“写Prompt等渲染”，现在转向“描述意图、约束规则、实时共创”。从PixVerse的Agent创作助手，到R1在播放中更改光影与走向，再到“分镜+音频”一键成片，创作的主战场从调参数，迁移到设计生成规则与体验边界。正如制作人所言：团队不再只产出镜头资产，而是在一个可对话、可回溯、可演化的Agent网络里，培养会长大的世界。游戏那边也在“反向融合”——把AI视频能力吸入引擎与生产线，用AIGC解放人力、加速迭代、延长生命周期，真正把“更新频率”与“玩法试验”做成竞争力。那谁会吞噬谁？短期看，游戏会“吃掉”视频的被动心智，把观看场景改造成可玩体验；视频会“吃掉”游戏的重资产制作链，把大量资产生产与镜头构建迁移到生成式流水线。长期看，被吞噬的其实是边界本身——胜出的将是一层“实时交互内容操作系统”：它既能像片场那样导演一切镜头，也能像引擎那样托举规则、物理与因果；它可能叫R1、也可能是下一个Genie或全新的GGE（生成式游戏引擎）。当然，通往融合的路依旧陡峭：长程记忆与稳态场景维护、物理可控与可解释性、端到端时延与算力成本、IP与数据合规、以及玩家对新交互形态的适应，都需要3–10年的工程与生态磨合。行业调查也提醒我们，围绕AI的期待与疑虑并存，系统整合与落地成本依旧是硬骨头。但这恰恰说明，真正的护城河不在某个炫目的Demo，而在“模型—产品—反馈”的高频闭环和面向行业的深度解法：谁能把生成能力嵌入创作工作流和运行时体验，谁就更接近答案。所以，与其等待“谁吞噬谁”的结局，不如参与“如何合体”的过程。当视频学会了玩、游戏学会了拍，我们需要的新角色，是“世界的规则设计师”。当你定义了因果、价值与边界，AI就会为你把故事长成一片宇宙。也许真正的问题是：在万物皆可交互的时代，你愿意把“观看”的权力，升级为“塑形”的自由吗？

实时生成整个世界，AI的算力瓶颈在哪？

想象一下：你说一句“把夕阳改成暴风雪”，屏幕里的世界两秒钟内翻云覆雨、人物踏雪而行、风声呼啸同步响起。这不是魔法，是真实在和“算力”拔河。要让一个会呼吸、可交互的世界实时生成，最大的敌人不是创意枯竭，而是计算资源的天花板。最先撞上的，是“令牌洪水”。视频在模型眼里被切成无数空间—时间的patch：一帧1080p图像可能就是数百个patch，30帧每秒、一分钟就飙到近百万级序列长度。传统自注意力对序列是平方级复杂度，时间一加长、分辨率一抬高，计算就像雪球滚成雪崩。为此，业界开始“节食”：把生成从像素域搬到潜空间，自编码器把视频空间压缩到32倍、时间压缩到4倍，极大减少参与计算的token；注意力从全局变线性、变分块，甚至引入恒定显存的KV缓存机制，让分钟级视频的计算与显存不再爆表。结果是可量化的速度跃迁：同等画质下延迟能做到同类的十几倍提速，甚至落地到消费级显卡上。第二堵墙是“显存墙”，本质是KV缓存的吞噬效应。对一个有L层、隐藏维度d、分辨率H×W、时长T的视频，自回归或长序列推理时KV缓存内存大致按2×L×(H×W×T)×d×字节数线性攀升。哪怕是5秒480p，单次推理也可能要吃掉三十多GB，只靠一张顶级消费卡都嫌紧。破解思路不是“蛮力扩容”，而是“聪明压缩”：把键值缓存做语义感知量化，先按相似性聚成组、用质心代表，再对残差分级量化；配合渐进式残差和流式质心缓存、融合反量化内核，能在近乎无感的画质损失下拿到5倍左右的压缩比。更“狠”的做法是把KV做成常数内存开销，长视频生成也不再被显存绑架。第三个瓶颈是“步数与延迟”。扩散模型传统要50—100步去噪，渲染得再美，用户也等不起。破局的关键词是蒸馏和跳步：把“大师模型”的长流程“教会”学生模型，用1—4步复现接近原始质量的效果；再配上演化式的计算跳过策略，把早期被判定为“不重要”的注意力单元在后续也优先跳过。数据给了清晰回报：有效函数评估次数降到约1.38次仍拿到高分画质；在主流大模型上，相比高度优化的注意力内核也能再加速三四成。工程侧再把解码、预处理、推理做成流水线，加上INT8或NVFP4量化、结构剪枝，多实例并行，端到端延迟能从数百毫秒砍到十来毫秒量级；放到视频生成里，就是从“离线渲染”进化到“实时互动”。真正决定“世界是否实时”的，还有表达方式本身。逐像素去噪就像每帧都从头作画，代价高且易漂移；世界模型换了一条路：先学到三维几何与物理规律，在更高层次里预测“世界状态”，再快速渲染视角。这种“先模拟、后成像”的范式，自带时空一致性和因果约束，几何锚点与隐式记忆结合，长期内容不易崩塌，甚至可以无限时长推理而不遗忘。好处不仅是更稳，更是更省算力——你花算力在“理解”和“控制”，而不是一遍遍无谓地刷像素。别忽视系统层面的“隐形瓶颈”。实时互动意味着整条链路都要快：从语音识别到大模型决策再到语音合成、从视频编解码到前后端端到端传输，任何一个环节的毫秒级抖动都会被用户感知。把CPU解码、CUDA预处理、GPU推理用流式并发拼起来，把内存带宽、PCIe/NVLink传输和服务编排都当作“一体化算力预算”管理，才能把模型侧的提速变成用户侧的“秒改风云”。算力瓶颈在哪里？在令牌爆炸、在KV内存、在去噪步数、在带宽与流水线，也在我们对“用像素描述世界”这件事的执念里。突破之道也清晰：用更节省令牌的潜空间与线性注意力，给KV做聪明的量化与常数内存设计，把多步去噪蒸馏到单步、用跳过机制只算“要紧的那一刀”，更要把表达从渲染像素升级为运行世界。当我们把每一焦耳算力都花在“意义”而非“冗余”上，实时生成的世界不再遥远。技术的尽头从来不是更大的GPU，而是更好的抽象。算力是想象力的货币，而更高明的表示法，能让同一枚硬币买到更辽阔的现实。下一次你让风暴在屏幕里起舞，请记得：让它成真的，不只是速度，更是秩序与理解。

AI生成的完美世界，藏着哪些无形代价？

当一句话就能生成一段流光溢彩的超高清视频，你以为我们只是在“省时间”。其实，屏幕背后正悄悄记账：真相的成本、创意的独立性、社会的信任度、心智的韧性，都在为这份“完美”买单。最先变贵的是“分辨真假的能力”。AI能把谣言包装成有图有视频的“现场”，一分钱能生成七篇稿，日更十几万的内容工厂确实存在。平台不得不加码识别与标注，像“疑似由AI生成”的打标、限流乃至封号，都是为公众降低“验证税”的必然代价。可当每个人都要在点转发前做事实核验，社会沟通的摩擦系数就上来了；律师引用AI捏造判例被司法制裁的案例，进一步提醒我们：幻觉不是小瑕疵，而是系统性风险。随之变淡的是“人味”。大模型擅长把风格平均化，审美容易陷入同质化，因而“活人感”的回潮并非口号，而是对算法茧房的本能反抗。法律层面也远未清晰：有的AI辅助手稿因体现了独创性被认定为作品；也有高度统一风格的模型成像被否定为作品、却以不正当竞争获救济。创作者需要为“独创性”留痕：提示词、参数、反复修改记录，这些都是未来版权博弈的硬通货。更隐蔽的是“数据账”。很多人把隐私、商业秘密，甚至敏感行业线索直接喂给了在线模型；而攻击者也在用AI做更拟人的钓鱼与社工。监管因此提出分类分级、内容标识与算法备案，行业内的“合规化与审计”开始成为固定成本。对个人而言，“涉密不上网、先核验再转发、少量多次地输入敏感信息”正在成为新的数字素养。当视频从“文件”跃迁为“可交互的世界”，问题不止翻倍。实时互动的世界模型与“瞬时响应引擎”让画面能在两秒内按你的指令改光影、换场景、控角色，这令人兴奋，也带来实时操控与沉浸式说服的全新风险边界。深度伪造不再是成片，而是流；同意、溯源、纠错与未成年人保护，都要被重新定义。视频与游戏的边界模糊后，传播学、伦理与安全测试必须前置，否则“可玩”的叙事也可能变成“可玩弄”的情绪。生态层面，超低边际成本让劣质内容挤压优质创作的可见度，平台不得不投入更多机器检测、人工审核与用户举报协同；而企业要支付更高的评估、红队、安全与标识费用。看不见的，还有创新路径的“锁定效应”：当少数平台掌握算力、数据与分发入口，独立团队被迫在既定风格与接口里创作，文化多样性无声受损。当然，“完美世界”的代价并非不可控。内容端的显著标识与可追溯链路，企业侧的最小化数据原则、合成内容水印、灰度上线与压力测试，创作者的“AI打底、人类定稿”，教育环节的媒介素养与青少年保护阈值，法律上的清晰授权与合理使用边界，都会让技术的收益更确定、风险更可计量。也许更值得珍惜的是那点“噪点”。人类之所以迷人，在于犹豫、在于多义、在于会为一片晚霞耽搁行程。AI可以生成无瑕的光影，但意义往往来自不完美的缝隙。让机器更像工具、而非裁判；让世界更可交互、而非更易操控；在每一段由AI生成的华彩后，补上一张人类的背书：这是谁的意图、用了哪些边界、该由谁负责。当我们学会为“完美”定价，就更有能力守住不被替代的人性。

当视频能被“触摸”，我们的大脑会变异吗？

当屏幕不再只是被观看，而是可以被“按下、拖动、改写”的世界，我们的大脑会发生什么？想象一下：你在一段电影里伸手把落日调暖、让主角转身说出另一句台词，系统两秒响应、1080P 实时流顺滑呈现——这不是魔术，而是爱诗科技用 PixVerse R1 和“瞬时响应引擎”把视频从离线渲染变成了可交互的“世界模型”。当故事可触、可改，我们的神经系统也会从“观众模式”切换到“参与者模式”，而这恰恰是大脑最擅长的事：以可塑性去重写自身。 “变异”这个词听上去惊悚，但从生物学上说，人类不会因为能摸视频就发生基因层面的突变。真正会发生的是经验依赖的神经重塑：突触连接的增减、网络协作方式的再配平、注意与记忆系统的再分工。与过去被动观看不同，可交互视频引入了主动性、目标感与多模态线索，这三件事会显著改变大脑的工作方式。交互带来“具身化”的学习。研究显示，沉浸式环境能调谐大脑节律（如VR场景中被增强的特定节律），而节律的精确频率与神经可塑性紧密相关；当视觉、听觉与触觉被一同调动时，大脑的多模态整合会产生“弱单感更强融合”的增益效应，哪怕单一线索并不强，也更容易形成稳固记忆。再加上“主动触觉”的引入——手脚去探索、施力、得到即时反馈——这不仅提升临场感，还能把程序性技能与语义记忆绑定得更牢。临床与实验亦提示，沉浸式训练配合温和的非侵入式刺激可以加速回忆与巩固，这意味着交互视频在康复、语言与STEM教育中可能比“看视频课”更有效。但任何强效输入都有代价。短视频时代我们已见识过多巴胺跑步机：算法不断投喂新奇，前额叶自控力被稀释，注意支离、情绪易躁、睡眠被蓝光打碎。可触视频的“吸引力”会更强，因为它把“观看奖励”升级为“控制奖励”，预测—行动—反馈的闭环会更密，易让人沉浸更久。信息过载会让海马体的突触传递折损，记忆提取更易出错；对尚未成熟的青少年，碎片化刺激尤其伤害深度思考。更微妙的是网络层面的疲劳：额顶控制系统需要在“背侧注意网络”和“默认网络”之间持续切换以维持灵活性，过度的任务跳转与即时操控，可能把这台“认知换挡器”压在红区。这并不意味着我们要对交互式视频退避三舍。恰恰相反，设计与使用的“剂量学”将决定它是灵药还是甜毒。系统层面，可以把即时快感从“随机奖赏”转向“渐进掌握”，用分镜到成片的长周期目标替代频繁刷新的短刺激；把触觉回路做“自然”、而非“强烈”，让反馈服务意义而非仅仅刺激；把两秒级响应用于叙事与场景控制，而非迫使用户进行毫秒级的动作赌博。用户层面，给大脑设边界：固定创作时段、留出无屏时间、睡前一小时脱离蓝光，让深层节律有机会回到位；把“消费时长”转化为“创作里程”，让每次交互都在训练一项技巧，而不是只换来一次快感。回到那个直觉上的担心：当视频能被“触摸”，我们的大脑会变异吗？答案是，它会像一直以来那样，因环境而改造自身——但方向取决于我们给它怎样的环境。资本已经押注把视频变成“交互界面”的时代，技术也在用 DiT 架构、模态大模型与实时引擎把这扇门推开。门后既有更高效的记忆与学习，也有更黏更快的注意力黑洞。科技从不是中立的，它总会塑形我们的心智：或让我们成为更会讲述与创造的人，或把我们训练成更会点按的手指。也许值得时时自问：当我们把手伸进一段会回应的影片时，我们在重写的不只是剧情，还有自己。愿每一次触摸，都指向更深的理解、更长的专注与更自在的自控，而不只是更短的快乐。

人人都是导演后，我们还信眼见为实吗？

当视频不再是“看完即走”的文件，而是能被你随手改写的世界，我们的眼睛，还能当作真相的裁判吗？生成式视频从胶片时代的冲洗，跃迁为实时“回应你”的界面：爱诗科技拿下3亿美元C轮，PixVerse 用户破亿、月活超1600万，最新R1把渲染步骤从数十步压缩到1–4步，延迟约2秒就能在1080P里改光影、换背景、改剧情。人人都能当导演，屏幕也开始“回看”我们。这听上去是创作自由的狂欢，也是信任体系的一次应激测试。技术的拐点已被踩中。爱诗在视频生成上押注DiT架构，用Transformer去抓跨帧的长程时空依赖，配合产品-模型一体化迭代，把训练成本做到同行的十分之一，V5.6跻身全球第一梯队。更关键的是，R1把“视频=成片”改写成“视频=界面”，它的对手从工具台跑到了引擎层。视频将像网页一样可交互、可编排、可调用。想象一下，剧情不再被导剪锁死，观众的一个指令就能分岔叙事线。也正因如此，肉眼的可靠性在下滑。研究显示，普通用户判断AI视频的准确率不足65%，分辨率越高，误判反而越多；现实中，深度伪造已能在视频会议里“复刻”高管神情与声纹，单案骗走数亿资金。当“真实质感”成为一种廉价可得的效果，画面不再自带背书。眼见为实，正在悄悄过期。但“信任的塌陷”并非宿命。规则与工具正在补位。面向公众的生成式服务需要显著与隐式的合成标识，平台侧启用内容溯源与水印，逐步把“可追溯”做成底层能力；高逼真生成被纳入更严格的权限与审计，接口不再无差别外放；司法层面的判例开始落地，从未经许可爬取训练数据的侵权，到利用AI微调他人作品获利的刑责认定，边界在清晰起来。把这些拼起来，你会发现，信任正在从“看像不像”迁移为“能不能被验证”。人的“新素养”同样重要。先问来源，再看细节；看不见的元数据，比看得见的像素更关键；对触发情绪的画面学会按下“延迟转发”；在关键场景，回拨核验、线下复核、双通道确认逐渐成为组织流程的新常态。媒体建立内容凭证链，企业把多人复核嵌入资金流，平台用“AI检AI”做合成痕迹检测，这些枯燥的步骤，正是未来“眼见为实2.0”的地基。别忘了，这也是一次前所未有的创作升级。R1这类“世界模型”让互动影像与游戏的边界变薄，个体创作者第一次站在引擎级舞台上。谁先把“可信创作”当成品牌资产，谁就能在注意力之外，赢得信誉力。创作者署名不只是名字，而是一串可核验的证据；作品的“真实度”不靠宣誓，而靠可复查的链路。真诚，正在被技术具象化。那么，人人都是导演后，我们还信眼见为实吗？答案或许是：我们仍然相信眼睛，但不再只相信眼睛。未来的“实”，不是一帧画面，而是一套被记录、被校验、被共识的过程。像素给我们以感受，证据给我们以确信。真相在屏幕里变得可塑的同时，也在协议里变得更坚固。当虚构的门槛降到前所未有的低，真实的价值就会上涨。请把“看见”升级为“见证”，把“相信”升级为“可证”。当我们学会在想象力与可验证之间搭桥，创作的自由与社会的信任，才能在同一块屏幕上同时发光。

如果电影能互动，你会改写哪个经典结局？

想象一下，银幕不再是单向的窗，而是一扇可以被你伸手推开的门。得益于AI视频从“离线渲染”跃迁到“实时交互”，比如能在约2秒延迟里输出1080P视频流的瞬时响应引擎，让观众在播放过程中改光影、换场景、调整角色走向成为现实。互动影像早已露出锋芒：从HBO的《马赛克》到用眼动追踪决定走向的《愤怒的河流》，互动模式正沿着“分支剧情、信息探索、多视角、隐藏触发”四条路径生长。当视频开始像游戏一样可被触碰，它的对手不再只是别的电影，而是Unity、Unreal这类实时内容引擎。如果能改写一个经典结局，我会选择《迷雾》。那场车里绝望的枪响，紧接着雾散、救援车灯透出的“迟到的希望”，让人胸口一沉——这是电影史上最具争议、也最尖锐的道德拷问之一：在彻底不确定的世界里，我们究竟何时放弃、何时等待？我设想的互动版《迷雾》，不是简单给你一个“开枪/不开枪”的按钮，而是让选择在时间里发酵。在引擎的物理一致性和跨帧时空关联能力加持下，雾的密度、风向、怪物群的路径都会实时演化。你可以在绝望时刻轻声说“再等30秒”，画面里燃油表滴答下滑，孩子的呼吸声被环境降噪算法还原得更近；也可以把枪放下，转而指挥“回超市”，车辆抖动着倒退，远处若隐若现的灯光让心跳和配乐同步提速；还可以触发“多视角探索”，临时切换到救援车队的热成像视角，观察他们是否真的靠近。甚至连你的注视点与停留时长都会被摄像头捕捉，当你的目光更久地停在孩子身上，系统会解锁“隐藏触发”——主角改变主意，把最后一发子弹留给未知，而不是终结希望。技术细节并非花哨点缀，它直接塑造叙事的张力。由扩散模型与Transformer耦合的架构擅长捕捉跨帧依赖，让“等30秒”的连续性可信；“分镜+音频”一体生成，让风噪、心跳、子弹上膛的金属感与画面同步；而将计算步骤压缩到数步的实时引擎，则让你的每次犹疑都能立刻在画面与声场里回响。结果是，选择不再像投票，像是与命运真正地较量。当然，能够改写的又何止一部《迷雾》。如果你驻足《盗梦空间》，可以在陀螺将停未停时触发“信息探索”，回看前场景的细节线索，拼凑个人版本的现实；在《禁闭岛》中，你可以选择从泰迪还是医生的视角重述最后一天，体会“真相”与“仁慈”的悖论；而《银翼杀手》则适合“多视角探索”：让你临时进入罗伊·巴蒂的记忆，理解那句“泪雨中的时刻”，再回到德卡德的困惑里作答。互动不是为了把艺术变成问答游戏，而是把你与角色的心理轨迹绑在一起，让每个分歧都带来情感与认知的新的折射角。也必须承认，互动是一把双刃剑。过度的分支会把复杂的人性切碎成机械的选项，让叙事滑向功利化。解决之道并不是堆更多按钮，而是用“人机协同”的方式，用AI承担可变的环境、音画的细节、叙事的节奏控制，把真正的价值判断与主题表达留给创作者与观众的对话。最好的互动，并不剥夺导演的意图，而是让你在意图的光束里，找到属于自己的影子。为什么要改写结局？也许不是为了把悲剧改成喜剧，而是为了看清我们在不确定中的取舍。当电影成为一种交互界面，观众不再只是看客，而是共作者。你按下的每个分支，都是一次关于希望、责任与时间的自我注解。下一次，若能伸手改写命运，你会选择等待，还是扣动扳机？这道题，也许答案从来都不在银幕上，而在你心里那团永不散的雾。

新知 - 大圆镜｜3亿押注AI视频：从看视频到玩视频

对抗知识焦虑，从看懂这条开始

App 下载

2026年3月的AI圈，有个数字比OpenAI的融资更值得咂摸：成立不到3年的爱诗科技，拿到了3亿美元C轮融资——这是国内AI视频赛道单笔融资的最高纪录。而美国的Runway，花了7年才在2026年初拿到差不多量级的E轮。

更反常的是，这笔钱的押注重点，不是能生成更逼真视频的模型，而是一款能让你「玩」视频的产品：你可以在播放中的视频里改背景、调光影、让主角转身，系统2秒内就能给出响应。

为什么资本愿意为「玩视频」砸下重金？这得从三年前一个反常识的技术选择说起。

选DiT：三年前的「笨办法」成了标准答案

2023年，当国内AI视频团队都在抢用成熟的U-Net架构时，爱诗科技选了当时没人看好的DiT——扩散模型（Diffusion）和Transformer结合的架构。

你可以把U-Net想象成一个熟练的修图师，擅长把局部细节磨得完美，但要让它理解一整段视频里主角从客厅走到厨房的完整逻辑，就像让一个只会抠细节的人写长篇小说，力不从心。而DiT更像一个会读剧本的导演：它把视频拆成一个个小画面块，通过Transformer的「全局注意力」，能同时盯着从开头到结尾的所有帧，记住主角的发型、杯子的位置，甚至光影的方向。

当然，这个选择在当时要付出代价：DiT初期训练对算力和数据的要求是U-Net的数倍，前三个月生成的视频甚至不如U-Net流畅。但爱诗赌的是长期：U-Net的局部优势是天花板，而DiT的全局能力，能支撑起更复杂的视频逻辑——比如让视频里的世界，像真实世界一样能被改变。

2024年OpenAI发布Sora时，公开的核心架构正是DiT。此时爱诗已经在DiT上跑了一年多的训练数据，积累的工程经验，成了后来实时交互的技术底座。

从「生成视频」到「模拟世界」的一跃

如果说DiT是地基，那PixVerse R1就是爱诗在上面盖的第一栋「可交互大楼」。

过去的AI视频生成，本质是「离线渲染」——你输入指令，等几分钟拿到一段固定的视频，就像洗胶卷，出来什么样就是什么样。但R1不一样，它是一个「实时交互式世界模型」：你在视频播放时输入「把晴天改成雨天」，2秒后画面里就会落下雨滴，主角会下意识拉衣领，甚至地面会慢慢变湿。

这背后的关键是爱诗自研的「瞬时响应引擎（IRE）」。传统扩散模型要把噪声一步步变成视频，得走几十步计算，IRE把这个过程压缩到了1-4步——相当于把一条绕远的盘山公路，修成了直达山顶的隧道。它还在模型里加入了「空间记忆」，能记住视频里每一个物体的位置和物理属性，比如杯子掉在地上会碎，而不是飘起来。

这个变化的意义，已经超出了「更好的视频工具」。影视公司可以用它快速做互动剧的Demo，游戏公司能直接生成可玩的关卡原型，甚至教育领域能做出「可以亲手调整实验参数」的虚拟课堂。用爱诗联合创始人谢旭璋的话说：「未来视频和游戏的边界会消失，视频不再是用来『看』的，而是用来『进入』的。」

资本押注的不是技术，是「内容生产的革命」

鼎晖领投3亿美元时，看中的不只是R1的技术参数，而是它背后的产业信号：AI视频终于从「辅助工具」，变成了能重塑行业的「基础设施」。

过去，视频生产是「专业门槛极高的线性流程」——写脚本、拍素材、剪片子，每一步都要专业人做专业事。AI视频生成把这个流程缩短了，但本质还是「批量生产视频」。而实时交互的世界模型，是把「生产视频」变成了「搭建世界」——你不需要写好完整脚本，只需要设定规则，用户就能自己在里面创造内容。

这也是为什么产业资本会扎堆入场：中国儒意（影视）看中了互动内容的新形态，三七互娱（游戏）看到了AI原生游戏的可能性。当视频能像游戏一样被实时操作，广告可以让用户自己切换产品颜色，短剧可以让观众决定主角的选择，整个内容产业的生产逻辑都会被改写。

当然，现在的R1还不完美：长时交互下偶尔会出现物体「漂移」，物理细节也不如离线生成的精细。但资本赌的是「趋势」——就像当年智能手机刚出来时，没人会因为它不如PC流畅就否定它。

三年前，爱诗选择DiT时，有人说他们「放着成熟的路不走，偏要绕远」。现在看，他们只是提前走上了一条更宽的路。

我们这代人习惯了「视频是用来观看的」，就像上一代人习惯了「电视是用来接收信号的」。但技术的迭代，往往就是从「打破习惯」开始的——当视频能被实时交互，当我们能在数字世界里像在现实中一样行动，视频就不再是内容，而是一个入口。

视频的未来，是可进入的世界。

这笔3亿美元的融资，与其说是押注AI视频，不如说是押注一个正在到来的、人与数字世界更紧密连接的时代。

选DiT：三年前的「笨办法」成了标准答案

从「生成视频」到「模拟世界」的一跃

资本押注的不是技术，是「内容生产的革命」

评论