AI秒速出图，你会先画什么？

我会先画一幅“夜色摩天楼＋海面倒影”的拼接测试图：左半是密集竖线与窗格的天际线，右半是水平波纹的水面反射，底部再嵌一块黑白棋盘＋彩色渐变条＋极小字号中英文字。这一张即可同时压测纵横依赖、细线稳定性、颜色与位置对齐、以及文本可读性，也最容易暴露对角并行可能带来的“反对角锯齿/楼梯边缘”和垂直信息泄漏等伪影。评估上我会用512×512并记录端到端延迟、首帧时间和吞吐，再做宽高比对照（1024×256 vs 256×1024）检验“H+W-1”步数带来的形状敏感性；用GenEval的Color/Position思路做自测，并在画面边缘放8pt与10pt字样比对可读阈值。理想结果：文字锐利、倒影连续无反对角撕裂，且延迟进入6秒内。

除了上下左右，AI还能预测哪个维度？

不止于平面上的上下左右，模型还能沿“时间轴”做下一帧/下一状态预测，把静态图生成为视频；沿“尺度轴”从粗到细地补全（下一尺度预测），先给出全局结构再填精细纹理；沿“视角/深度轴”在3D里外推新视图或逐层生成体素/神经体，相当于预测相机位姿或Z向切片，让画面在空间中“站起来”。更抽象的维度同样高效：在“频率轴”先低频后高频重建以稳住大形；在“语义/布局轴”先产出对象与版式，再还原像素细节；在“难度/置信度轴”先并行填容易的位置、再迭代修难点（如Jacobi/Masked解码）；在“噪声轴”按扩散步从重噪到净化。工程上，还能按希尔伯特曲线、块/带状顺序生成，贴合缓存与并行度，把速度再抬一档。

AI学会“对角线思考”，更像人眼了？

更像吗？有一点，但别过度解读。FlashAR把“只看一行”的光栅束缚拆掉，让模型在行与列两个方向同时条件化，相当于把因果边界改成二维邻域的“等和对角线”。这更贴近人类早期视觉对多方向边缘的并行整合，因此它在颜色一致性与位置关系上反而小幅提升，说明空间关系更快、更干净地被建模了。但它离“像人眼”仍有距离。人眼是大范围并行、中央凹—周边的非均匀采样，并靠快速扫视与自上而下的预测误差反馈来反复修正；对角线解码只是把串行步数从HW降到H+W-1，本质仍是离散token的迭代推断。要更像人眼，下一步应把对角并行与中央凹式分词、显著性驱动的自适应步长、跨尺度循环细化、甚至多取向（不止水平/垂直）的方向通道结合起来。也要警惕副作用：对角并行若门控不稳，容易出现棋盘/网格伪影；超长程依赖仍需全局注意力或额外迭代配合。所以，这是一次朝“类人视觉”迈进的小而正确的步子，但还没到“像人眼”的地步。

新知 - 大圆镜｜给AI图像生成换引擎，快23倍还不丢质量

对抗知识焦虑，从看懂这条开始

App 下载

从“排队结账”到“同时收银”的底层逻辑

你可以把自回归图像生成理解成超市里的单行结账通道——所有像素token必须排成一列，一个接一个地经过AI这个“收银员”。生成一张32×32的token图，就得排1024人的长队，每过一个人都要重新启动一次收银流程。 FlashAR的核心思路，就是在原来的“水平收银台”旁边，加了一个“垂直收银台”。它利用图像的二维结构，让AI同时预测水平方向的下一个token和垂直方向的下一个token，就像超市开了两条并行通道。这样一来，生成步数从1024步直接降到了32+32-1=63步，理论上就能把速度提上十几倍。

但问题来了：原来的AI只受过“水平收银”的训练，突然让它做垂直业务，肯定会手忙脚乱。团队没有直接改造原来的“收银员”，而是从AI的中间工作环节分出了一个专门的“垂直收银小组”——这就是中间层分支设计。实验证明，AI中间层的特征还保留着丰富的二维空间信息，不像顶层特征已经完全适配了水平串行任务，用它来做垂直预测，上手快、准确率还高。

用最少的改动，实现最优的配合

光有两个收银台还不够，得有人决定什么时候用哪个通道，这就是可学习融合门的作用。比如图像里的地平线部分，水平方向的依赖更强；而垂直的建筑轮廓，就得靠垂直预测来保证精准。这个轻量级的小模块会像一个智能调度员，根据每个位置的特点动态调整两个通道的权重，避免简单平均导致的图像模糊。为了让新老系统配合默契，团队用了两阶段训练策略：第一阶段先让“垂直收银小组”单独练习，熟悉垂直预测的规则，同时冻结原来的“水平收银员”，防止它忘了老本行；第二阶段再让两者一起上岗，通过少量数据的联合训练磨合配合。整个后训练过程只用了原始训练数据的0.05%——相当于只看了8万张图，就把一个串行AI改造成了并行专家。最后一步是把理论速度转化为真实体验。团队用FlexAttention动态编译稀疏的二维注意力掩码，再配合批量化KV缓存更新，让GPU的并行算力真正跑起来，而不是停留在纸面计算上。

不是完美方案，但给AI加速指了新路

在340亿参数的Emu3.5模型上测试时，FlashAR交出了一份亮眼的成绩单：生成速度从130秒压缩到5.68秒，实现22.9倍加速，GenEval综合评分只下降了0.19分，颜色和位置准确率甚至还超过了原模型。相比之下，另一种加速方案BlockDiffusion在相同条件下，评分直接掉到了73.83，画质损失肉眼可见。

当然，FlashAR也不是没有局限。目前它的中间层分支位置还靠人工经验选择，没法自动适配不同模型；而且同一对角线上的token之间还缺乏信息交流，可能会损失一些局部细节。团队已经计划探索自动架构搜索和轻量级的对角线内交互机制，来解决这些问题。更重要的是，它证明了一个思路：不用推翻重来，也不用牺牲质量，通过巧妙的后训练适配，就能把已经成熟的大模型改造成更高效的版本。这对于训练成本高企的AI行业来说，无疑是个省钱又高效的方向。

当我们还在争论自回归模型和扩散模型谁更优秀时，FlashAR跳出了“非此即彼”的框架——它没有否定自回归模型的画质优势，也没有回避它的速度短板，而是用一种“搭积木”的方式，给旧模型赋予了新能力。这就像给一辆燃油车加装了混动系统，不用换发动机，就能大幅提升动力和效率。好的AI优化，不是从零造新车，而是给老引擎装涡轮。未来，或许我们不用再在“画质”和“速度”之间做选择，那些曾经只能在实验室里跑的高质量AI模型，很快就能走进实时直播、AR眼镜这些真实场景里。

从“排队结账”到“同时收银”的底层逻辑

用最少的改动，实现最优的配合

不是完美方案，但给AI加速指了新路

评论