为何“抄近道”的AI画得更好？

因为“原路返回”并不等于“最优返回”。要求逆过程精确倒走前向路径，会把模型绑在狭窄的可逆结构上，局部、串行、受限，难以贴合真实图像流形的“最短路”。放开精确逆约束后，逆向模型可以用全局注意力一次性把噪声“投影”到数据流形上，像找直达电梯而非原路下楼，既避开逐步解码的误差累积，也更善于捕捉长程纹理与语义。更关键的是，“抄近道”的训练目标更贴近我们在乎的视觉质量。独立逆向网络可直接用感知特征和引导强度作为条件来优化，等于把评分规则（如感知相似度、条件对齐）写进了解码器；再配上轨迹级的隐藏对齐与端到端去噪，减少了教师—学生、训练—推理之间的分布偏差。结果就是：路径更短、监督更密、结构更强，画面自然更真、更稳、更细。

AI作画快过眨眼，相机还重要吗？

重要，而且更重要，但角色在变。哪怕AI生成快过眨眼，它也只能“合成”，不能“见证”。新闻、法庭、保险理赔、体育判罚到处都在收紧溯源要求，媒体与相机厂正推行内容凭证签名和相机内嵌防伪链路；合成图必须标注，真实抓拍要能验真。这些场景里，相机是证据，不是画笔。其次，AI越强，对真实数据的饥饿越大。模型要跟上世界变化、覆盖长尾行业，离不开持续拍摄与标定过的传感器数据；工业检测、医学、遥感、自动驾驶都需要可测量的影像与元数据。构建数字孪生、NeRF/3DGS也得靠相机从数十上百视角采集，生成模型只能在其上插值，而非无中生有。对创作者，相机将与生成式AI融合：现场捕捉动态范围、质感与可追溯性，机内用极速生成做补光、去噪、修复、重光与风格化，形成“拍到+生出”的混合流水线。日常内容被手机+AI吞并，但专门相机会成为“真实性与控制力”的高端器材。AI变快，恰好把相机从“只会记录”推进到“记录并即时重构”的新阶段。

AI的“模糊记忆”会梦到什么？

它不会像人类那样做连续的电影梦，而更像在夜里“重编索引”。模糊记忆里，那些白天最异常、最矛盾、最未解决的片段会被优先抓出来：冲突的用户偏好、回答里说不通的链条、任务里失败的关键一步。系统会把相似对话聚成簇，压缩成原型概念，补齐可能遗漏的因果边，产出“这也许是真的”的线索草案，而非定论。如果是语言模型，这些梦常表现为可复用的答题“剧本”和策略模板，并伴随若干反事实样例，用来敲打规则的边界；视觉模型的梦更像从模糊表征中抽样出的场景草图，尤其含有“异常点”，以便次日生成时更快对齐；面向智能体，则是离线回放与改写计划：重排工具调用顺序，缩短长链推理的薄弱环。代价是，它也会“自圆其说”过头——把巧合当因果。稳妥的做法，是把梦产出的结论都标记为线索并带置信度与溯源，白天再用检索或外部证据复核，通过则固化为长期记忆，未通过就回收重炼。这样，AI的梦既能带来灵感和压缩，也不至于污染白天的判断。

新知 - 大圆镜｜三个本科生，给AI生成开了倍速

对抗知识焦虑，从看懂这条开始

App 下载

被锁死的归一化流：钥匙与锁的困局

你可以把归一化流模型想象成一套加密解密系统：前向过程是把图片“加密”成标准噪声，逆向过程是用“解密算法”把噪声还原成图片。传统流模型有个死规矩——解密算法必须是加密算法的精确逆运算，就像钥匙和锁必须严丝合缝，差一丝都转不动。

这个规矩带来了两个致命问题：一是架构被锁死，像视觉Transformer这种强大的通用架构，因为没法保证严格可逆，根本没法用；二是速度被拖慢，为了达到足够的画质，模型只能往深了堆、往宽了扩，生成时还得像自回归模型那样一步步计算，连并行加速都做不到。比如曾经的TARFlow，生成一张图得按顺序跑完全部步骤，就像用一根手指敲完一篇论文。

何恺明团队的研究一直盯着这个死穴。这次，三个本科生直接把“钥匙必须配锁”的规矩给废了。

双向解耦：让生成和加密各干各的

BiFlow的核心逻辑简单到离谱：把加密和解密彻底分开，各干各的。

前向过程依然用改进版的TARFlow，负责把图片精准转换成噪声，这部分保留了流模型训练稳定、似然估计精确的优势。关键的逆向生成过程，他们直接换了一套独立的可学习模型——不用再当加密算法的“影子”，而是自己学怎么把噪声还原成图片。就像加密用复杂的军用电码，解密却用智能翻译器，不用死记硬背密码本，只要能准确还原信息就行。

为了让这个独立的逆向模型不跑偏，他们加了三个关键补丁：

一是**隐藏层对齐：把前向过程中每一步的中间状态都拿出来当监督信号，让逆向模型的“思考过程”和前向过程对齐，就像给翻译器配了原文的草稿，保证不会译得面目全非。二是端到端去噪**：把传统流模型生成后额外的去噪步骤，直接塞进逆向模型里，生成出来就是干净的图，省掉了额外的计算开销。三是训练时无分类器引导：把生成引导的逻辑提前到训练阶段，不用像扩散模型那样生成时跑两次前向传播，一次就能出结果。

最狠的是，逆向模型用上了非因果的双向Transformer——所有像素可以同时计算，不用再一步步等前面的结果，生成速度直接起飞。

不止快：解锁的还有更多可能

实验数据给了最直接的证明：在ImageNet 256×256数据集上，BiFlow的FID分数达到2.39，刷新了流模型的最好成绩；采样速度比基线模型快了两个数量级，TPU上快697倍，GPU上最快也能快83倍。

更意外的是，因为双向映射的特性，BiFlow不用额外训练就能直接做图像修复和类别编辑——给一张缺了半张脸的图，它能精准补上；把猫的图改成狗，细节丝毫不乱。这在传统流模型里是不可想象的，毕竟连架构都被锁死，哪来多余的能力做拓展。

当然，它也不是完美的。目前BiFlow的逆向模型在处理更复杂的多模态数据时，训练稳定性还会波动；要适配边缘设备，还得进一步压缩模型体积。但它打开的那扇门，已经足够让人兴奋——原来生成模型不用在“快”和“好”里二选一，也不用为了数学严谨性牺牲架构的自由度。

当我们谈论AI生成的未来时，总在说更大的模型、更多的数据，却常常忘了那些被“严谨性”捆住的手脚。BiFlow的突破，本质上是给生成模型松了绑：让算法回归解决问题的本质，而不是被数学规则框死。

三个本科生的研究，也像一个信号：在AI的前沿领域，打破陈规的勇气，有时候比复杂的公式更重要。毕竟，真正的创新，从来不是在既有框架里修修补补，而是敢先问一句“为什么必须这样”。

规矩是用来打破的，不是用来守死的。

被锁死的归一化流：钥匙与锁的困局

双向解耦：让生成和加密各干各的

不止快：解锁的还有更多可能

评论