对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
AI绘图工具|阿德莱德大学|浙江大学|并行外挂|自回归图像生成|多模态视觉|人工智能
想象一下,你在AI绘图工具里输入“赛博朋克杭州西湖”,然后盯着加载条等了两分钟——这不是夸张,是过去自回归图像生成模型的真实处境。这类AI能画出细节拉满的高清图,甚至比扩散模型更懂你的文字指令,但生成一张512×512的图要走1024步串行计算,GPU的并行算力完全被浪费。现在,浙江大学和阿德莱德大学的团队把这个等待时间压缩到了5.68秒,还几乎没损失画质。他们没有从零训练新模型,也没改动原模型的核心目标,只是给它加了个“并行外挂”。这到底是怎么做到的?
你可以把自回归图像生成理解成超市里的单行结账通道——所有像素token必须排成一列,一个接一个地经过AI这个“收银员”。生成一张32×32的token图,就得排1024人的长队,每过一个人都要重新启动一次收银流程。 FlashAR的核心思路,就是在原来的“水平收银台”旁边,加了一个“垂直收银台”。它利用图像的二维结构,让AI同时预测水平方向的下一个token和垂直方向的下一个token,就像超市开了两条并行通道。这样一来,生成步数从1024步直接降到了32+32-1=63步,理论上就能把速度提上十几倍。

但问题来了:原来的AI只受过“水平收银”的训练,突然让它做垂直业务,肯定会手忙脚乱。团队没有直接改造原来的“收银员”,而是从AI的中间工作环节分出了一个专门的“垂直收银小组”——这就是中间层分支设计。实验证明,AI中间层的特征还保留着丰富的二维空间信息,不像顶层特征已经完全适配了水平串行任务,用它来做垂直预测,上手快、准确率还高。
光有两个收银台还不够,得有人决定什么时候用哪个通道,这就是可学习融合门的作用。比如图像里的地平线部分,水平方向的依赖更强;而垂直的建筑轮廓,就得靠垂直预测来保证精准。这个轻量级的小模块会像一个智能调度员,根据每个位置的特点动态调整两个通道的权重,避免简单平均导致的图像模糊。 为了让新老系统配合默契,团队用了两阶段训练策略:第一阶段先让“垂直收银小组”单独练习,熟悉垂直预测的规则,同时冻结原来的“水平收银员”,防止它忘了老本行;第二阶段再让两者一起上岗,通过少量数据的联合训练磨合配合。整个后训练过程只用了原始训练数据的0.05%——相当于只看了8万张图,就把一个串行AI改造成了并行专家。 最后一步是把理论速度转化为真实体验。团队用FlexAttention动态编译稀疏的二维注意力掩码,再配合批量化KV缓存更新,让GPU的并行算力真正跑起来,而不是停留在纸面计算上。
在340亿参数的Emu3.5模型上测试时,FlashAR交出了一份亮眼的成绩单:生成速度从130秒压缩到5.68秒,实现22.9倍加速,GenEval综合评分只下降了0.19分,颜色和位置准确率甚至还超过了原模型。相比之下,另一种加速方案BlockDiffusion在相同条件下,评分直接掉到了73.83,画质损失肉眼可见。

当然,FlashAR也不是没有局限。目前它的中间层分支位置还靠人工经验选择,没法自动适配不同模型;而且同一对角线上的token之间还缺乏信息交流,可能会损失一些局部细节。团队已经计划探索自动架构搜索和轻量级的对角线内交互机制,来解决这些问题。 更重要的是,它证明了一个思路:不用推翻重来,也不用牺牲质量,通过巧妙的后训练适配,就能把已经成熟的大模型改造成更高效的版本。这对于训练成本高企的AI行业来说,无疑是个省钱又高效的方向。
当我们还在争论自回归模型和扩散模型谁更优秀时,FlashAR跳出了“非此即彼”的框架——它没有否定自回归模型的画质优势,也没有回避它的速度短板,而是用一种“搭积木”的方式,给旧模型赋予了新能力。 这就像给一辆燃油车加装了混动系统,不用换发动机,就能大幅提升动力和效率。好的AI优化,不是从零造新车,而是给老引擎装涡轮。未来,或许我们不用再在“画质”和“速度”之间做选择,那些曾经只能在实验室里跑的高质量AI模型,很快就能走进实时直播、AR眼镜这些真实场景里。