
5 个月前
在AI视频创作的赛道上,创作者们长期被一个“不可能三角”所困:速度、画质、成本,三者似乎总难兼得。一个惊艳的创意输入模型,换来的往往是漫长的等待,或是为了追求速度而牺牲了画质的妥协。这就像一场“速度与激情”的竞赛,却总在关键时刻因为引擎过热(算力成本高昂)或方向盘失灵(画质崩坏)而功亏一篑。然而,一场源自全局化视角的思想变革,正悄然打破这一僵局。
近日,全球顶尖的人工智能会议NeurIPS 2025公布了Spotlight论文名单,一项名为LeMiCa (Lexicographic Minimax Path Caching) 的研究成果赫然在列。这项由中国联通数据智能有限公司元景大模型研发团队(高焕霖、陈平、赵放、廉士国等人)提出的框架,直指扩散视频生成模型的核心痛点,并给出了一个颠覆性的答案:我们不仅可以同时拥有速度与画质,而且实现路径比想象中更简单。
LeMiCa是一个无需额外训练、即插即用的缓存加速框架。实验数据显示,它能在多个主流视频生成模型上实现2.4倍以上的推理加速,同时生成的视频在结构、纹理和内容一致性上,几乎与未经加速的原版视频无异。这一突破迅速获得了业界顶级团队——阿里通义千问和智谱AI的官方推荐,标志着AI视频生成范式的一次重要重塑。
要理解LeMiCa的革命性,必须先回顾它所要解决的“老问题”。

过去的加速方法,如主流的TeaCache,大多采用一种“局部贪心”策略。这好比一位只顾低头看路的登山者,每一步都选择脚下最平坦、最省力的路径。听起来很合理,但在扩散模型的复杂地形中,这种短视决策往往会引向灾难。扩散模型的生成过程,尤其在早期阶段,对微小误差极为敏感,一个看似无害的“小跳步”(缓存复用),其引入的误差可能会在后续过程中被层层放大,最终导致整个画面的“雪崩式”崩坏。
联通元景团队敏锐地指出:“缓存加速并不是一个局部决策问题,而是一个全局路径优化问题。”

他们将视角从脚下的方寸之地,提升到了俯瞰整座山脉的“上帝视角”。在他们眼中,从一团随机噪声到一个清晰视频的完整生成过程,可以被抽象成一张巨大的地图——一个带权有向无环图(DAG)。
如此一来,寻找最佳加速策略,就巧妙地转化为了在这张巨大的地图上,寻找一条从起点到终点的“最优路径”。
找到了正确的地图,还需要一个聪明的导航算法。传统的“最短路径”算法在这里失灵了,因为它简单地将所有“通行费”相加,无法衡量路径中是否存在某个“致命陷阱”。
LeMiCa为此引入了一种更为精妙的准则——字典序极小化路径优化(Lexicographic Minimax Path)。这个听起来复杂的名词,其核心思想却非常直观:
优先避开最糟糕的情况。
导航系统不再追求“总路程最短”,而是确保你选择的路径中,最颠簸的一段路(最大误差)是所有可选路径里最平缓的。如果两条路径的最差路况相同,那就比较它们第二差的路况,以此类推。这种策略有两个显著好处:

更令人称道的是,这张蕴含全局智慧的“误差地图”,构建过程极为高效。LeMiCa仅需使用极少量的样本(实验证明20个样本即可饱和),就能离线生成一张静态的、可跨任务复用的全局误差图。这意味着它无需为每个新任务都重新训练,真正做到了“一次构建,处处可用”。
LeMiCa的优雅理论在实验中得到了完美印证。在与主流加速方法的对比中,LeMiCa生成的视频无论是在客观的PSNR、SSIM、LPIPS等画质指标上,还是在主观的视觉感受上,都展现出压倒性优势。即使在数倍加速下,视频中的物体结构、纹理细节和动态内容依然保持着高度的连贯性和保真度。
这项技术的意义远不止于视频生成。由于其通用性,LeMiCa同样适用于文生图模型。在对最新的QWen-Image模型进行的实验中,它也取得了同样出色的加速效果,证明了其作为扩散模型通用加速框架的巨大潜力。
LeMiCa的出现,不仅是技术上的一次精进,更是一次思想上的升维。它告诉我们,在人工智能的复杂系统中,许多看似无解的瓶颈,或许并非源于模型本身的能力局限,而是源于我们解决问题的视角。通过从“局部贪心”的线性思维,跃迁至“全局优化”的系统思维,我们得以在看似矛盾的性能指标间找到和谐共存的“最优解”。
这不仅为AI视频生成乃至整个AIGC领域提供了一个强大的新工具,更重要的是,它为未来的模型加速研究,点亮了一盏名为“全局规划”的指路明灯,引领我们走向一个真正高效、普惠的智能创作时代。
点击充电,成为大圆镜下一个视频选题!