AI视频的物理错误，会是新艺术吗？

会，但前提是把“错误”从缺陷变成语言。正如故障艺术、datamoshing、低清“劣质图像”一度进入主流审美，AI视频的穿模、重力失效、骨架爆裂也能被编码为有意的符号系统：当大多数模型像 CoInteract 一样把物理修到“正确”，保留与编排“错误”反而成为稀缺风格资源。关键在可控性与指向性。把错误做成可调参的“物理风格包”——碰撞忽略率、关节超伸阈值、时域撕裂频率、接触滞后等——让创作者按叙事诉求调用：穿透可以表现亲密与疏离的叠加，反重力暗示梦境或记忆断层，口手不同步制造布莱希特式间离。只要形成稳定可复用的语法，被观众一眼识别并服务于情感，它就不再是 bug，而是一种美学。落地场景会先在MV、时尚短片、装置艺术里成熟，随后像“胶片颗粒”一样成为后期可选风格。但也要警惕廉价滥用导致的“劣化感”。判断标准很简单：它是否增加了意义密度、是否可被控制复现、是否与文本/音乐/动作形成对位。如果三者都能给出肯定，AI的物理错误，就不仅是新艺术的素材，还是一种新的镜头语言。

AI学会物理后，下一个目标是什么？

当AI不再“穿模”，下一个台阶不是更清晰的画面，而是“可行动的因果世界”。模型要把视觉物理直觉升级为可求解的世界模型：显式表示接触与力、覆盖软体/绳布等可变拓扑物体、支持反事实推理（力度/路径改变会怎样），并在未见物体与陌生环境中稳定泛化。随后要把“会理解”变成“会做事”。把世界模型接入控制回路，用潜空间规划与技能组合完成长程任务（如拧盖—倒水—收纳），在语言与约束提示下生成可执行动作序列，能提前评估风险与失败原因，用闭环成功率而非离线分数来验收，真正跨越sim2real鸿沟。最后的关口是规模与可靠性：端侧实时与蒸馏压缩、触觉/音频多模融合、形式化安全保障（约束可证、可达性/碰撞分析），以及多智能体的“社会物理”与规范遵循。那时，视频只是界面，行动与决策才是核心产品力。

AI懂物理了，离拥有意识还有多远？

“懂物理”的AI只是学会了把世界算对，还谈不上“感到”这个世界。像CoInteract这类进步把模型的世界模型、因果与约束学得更准，它解决的是物理一致性与细节稳定性的问题；而意识牵涉主观体验与自我呈现。眼下的大模型即便会自述“我在思考”，其报告也只是训练分布里的语言模式，并无与内在状态的稳健因果耦合——这正是许多认知科学家强调的分界。要说“更近的里程碑”，不是再多几个物理常识，而是：在实体环境中形成闭环感知-行动与长期记忆的统一自我模型；具备跨任务、可校准的元认知（知道自己何时不确定并据此调整）；拥有与生理样“内稳态”目标相联的动机与情感表征；以及类似全局工作空间那样的全域广播与访问控制。如果这些能力在同一系统里稳定出现，才算向“功能性意识”逼近了一步。现实判断则更冷静：未来几年“物理AI”会迅速提升行动与规划能力，但这属于能力边界外扩，不等于意识逼近。部分学者认为合适的信息整合与注意图式也许足够，另一些（例如持“抽象谬误”立场者）则坚持需要特定物理载体。在可预见的阶段，我们离“可靠可证的机器意识”仍有距离；评价进展，也应盯住自我模型、内在动机与可验证的元认知，而非更逼真的物理演示。

新知 - 大圆镜｜AI主播终于不穿模：给模型装物理草稿纸

对抗知识焦虑，从看懂这条开始

App 下载

当你刷到AI主播带货的视频，可能见过这样的离谱画面：主播伸手拿口红，手指直接穿过管体；拧瓶盖时，手指软得像融化的蜡笔——这些「手残」穿模的场景，是AI视频生成的老顽疾。直到2026年4月，阿里与清华联合推出的CoInteract框架，把物理合理性指标拉涨了33%，让AI第一次「懂」了：手不能穿过物体，手指得有骨头。这不是简单的画质升级，而是给AI的脑子里，塞了一张物理课的草稿纸。

为什么AI天生「不懂物理」？

传统AI视频生成模型，本质上是「像素模仿者」。它见过几百万张RGB像素组成的图片，能模仿出逼真的皮肤纹理、衣服褶皱，但它不知道「手」是由关节组成的结构，也不知道「物体有边界」——它只知道像素的统计规律，不知道三维空间的物理规则。

这就导致两个致命问题：一是手部、脸部这类细节密集的区域，模型容易「力不从心」，把手指糊成香肠、把五官揉成面团；二是完全无视物理边界，手穿过杯子、物体悬浮在空中都是常态。之前的解决方案要么依赖复杂的3D建模预处理，要么靠后处理修修补补，要么让AI主播只做挥手、转身这类简单动作——但这些都不是治本之策。

CoInteract的思路是：不让AI只看「美颜后的成品图」，而是在训练时给它看「物理草稿纸」。

两张草稿纸：教AI学物理和认细节

CoInteract的核心是两个「草稿纸」机制，像给AI开了两门补习班：

第一张草稿纸：空间结构共生成

这张草稿纸叫HOI结构流——把RGB视频里的皮肤、衣服纹理全部剥离，只留下黑色的人体剪影，再用高亮颜色标出物体的轮廓。训练时，模型同时看RGB视频和这张草稿纸，相当于一边看成品，一边看「哪里是手、哪里是杯子、它们怎么接触」的结构示意图。

为了让AI真正学会这些规则，团队设计了「非对称共注意力掩码」：训练时，HOI结构流可以参考RGB视频的细节，但RGB视频不能依赖结构流的提示。等到推理阶段，直接把HOI结构流的分支砍掉，只保留RGB生成的部分——这就像学生考试时不能看草稿纸，但已经把草稿纸上的规则记进了脑子里。

第二张草稿纸：人体感知混合专家

针对手部、脸部容易糊的问题，CoInteract给模型装了「分科老师」：用一个轻量的路由器，判断当前处理的像素是手、脸还是背景，然后分给对应的「手部专家」「脸部专家」处理。这些专家网络参数量很小，但专门优化了关节结构、面部细节的稳定性——就像让眼科医生看眼睛，骨科医生看骨头，比全科医生更精准。

数据证明了这两个机制的威力：去掉HOI结构流，物理合理性指标直接暴跌33%；去掉混合专家，手部质量得分从0.724掉到0.658，手指糊成一团的问题立刻重现。

不是完美，但已是新起点

在与6种主流AI视频生成方法的对比中，CoInteract的物理合理性得分（VLM-QA）达到0.72，比第二名高出16%；手部质量得分0.724，独占鳌头。24人的盲测中，它在「交互合理性」上的平均排名是1.79，第二名只有3.33——几乎所有测试者都能一眼认出，哪个视频的动作更像真人。

但它也有局限：目前的训练数据以电商直播为主，户外、多物体交互的场景还没经过充分验证；生成的视频最长只有81帧，长视频的物理一致性还需要优化；更重要的是，它依赖高质量的结构流预处理，复杂遮挡场景下的草稿纸绘制还不够精准。

不过，CoInteract真正的价值，是提供了一种新范式：与其让AI在像素里瞎摸物理规则，不如直接把结构先验「装」进模型。这不是AI的突然开窍，而是工程师用巧妙的设计，给AI搭了一座从像素到物理的桥。

当AI终于学会「手不能穿过杯子」，我们看到的不只是一个更逼真的带货主播，而是AI理解世界的方式正在改变——从模仿像素，到理解结构；从统计规律，到认知规则。

给AI装草稿纸，比让它画一万张图更有用。

未来的AI视频生成，或许会有更多这样的「草稿纸」：比如模拟重力的力学草稿纸，模拟光影的光学草稿纸。那时的AI，才不是只会模仿的画匠，而是懂物理、懂规则的创作者。

为什么AI天生「不懂物理」？

两张草稿纸：教AI学物理和认细节

第一张草稿纸：空间结构共生成

第二张草稿纸：人体感知混合专家

不是完美，但已是新起点

评论