“画得太干净”会限制AI想象力吗？

不会。把目标改为直接预测干净图像，本质是在数据流形上更精确地“落脚”，减少离谱伪影，并不天然压缩创意空间。想象力的来源主要在于条件提示、采样随机性与探索强度：当你看到输出“都一个味儿”，更常见的肇因是采样与指导配置（高CFG、低温度、确定性ODE采样）把分布拧得过紧，而不是x预测本身。真会束缚多样性的，是把去噪与对齐拉得过猛，让模型总朝“平均解”回归。解法很工程：用SDE而非纯ODE采样、提高噪声温度与步间随机性、下调或分段调度CFG、加入seed抖动与dropout、甚至多头/mixture解码。同时，用intra‑prompt LPIPS与precision/recall曲线监控多样性与覆盖。这样既“干净”，也能“天马行空”。

AI返璞归真，反而会更强吗？

会，但有前提：当学习目标贴着数据流形、优化路径干净时，“减法”能把难题从拟合无结构噪声变成恢复结构信号。除JiT在ImageNet 256/512刷到SOTA外，一步/少步方向也在佐证这一点：pMF在256分辨率达2.22 FID，MeanFlow单步（1-NFE）做出3.43 FID。把目标改简单后，训练更稳、扩展更线性，还能绕开VAE/Tokenizer带来的信息损失与对齐噪声。但返璞归真不是银弹。像素域端到端对显存与算力更“硬”，在长程条件控制、可编辑性、多模态对齐上，潜空间与感知特征仍具效率优势。简单目标若缺少良好正则与采样调度，可能丢多样性或长尾语义。更可信的路线是：以“x预测/平均流”为极简核心，再按需外挂轻量条件器与像素级解码器（如PixelDiT/DeCo），在纯粹与可控之间取得新平衡。

AI能复原千年前的古画吗？

能，但要分清“可视化复原”和“历史性复原”。在数字层面，AI已能把褪色、破损的古画重建到“最可信的推测版”：多模态大模型把图像、史料、颜料光谱与地理信息拼成证据链，扩散模型做细节引导式渐进修复，色彩按颜料成分与时代风格反推。实际应用中，虚拟预修复可将不可逆风险降约80%，病害识别精度达95%以上，并把修复周期从约1年缩至数月。但AI给出的只是概率最优解，不等于历史真相。在证据稀薄处，它可能“合理想象”，甚至把他作元素误拼进画面，触犯修复伦理。业内更稳妥的做法是：AI只做辅助与预演，过程可追溯、结果可逆（如非接触式覆膜补配），并对生成内容标注不确定度与依据范围。要把“复原”从好看变成可信，最后一锤仍需材料学检测与史学考据来敲定。

新知 - 大圆镜｜何恺明改了扩散模型：不猜噪声直接画图

对抗知识焦虑，从看懂这条开始

App 下载

高维空间里的“无用功陷阱”

你可以把高维像素空间想象成一个无边无际的3D展厅，而所有真实存在的自然图像，其实都挤在展厅一面贴满照片的墙上——这就是流形假设：看似高维的数据，其实只分布在一个低维的“曲面”上。

但过去的扩散模型，偏要让神经网络去拟合展厅里漫天飞舞的“雪花点”——也就是噪声。噪声是均匀填满整个3D空间的，没有任何规律可言，要让模型学会预测这些无意义的随机信号，需要的算力和模型容量呈指数级增长。尤其是当处理256×256甚至512×512的高分辨率图像时，模型很可能直接“崩溃”：生成的图像模糊、扭曲，FID指标（衡量生成图像与真实图像差异的数值，越低越好）会像坐火箭一样飙升。

何恺明团队做的，就是把模型的注意力重新拉回那面“照片墙”。他们提出的JiT架构，是一个纯粹的Transformer，没有任何额外组件：直接把原始图像切成大Patch喂进去，让模型的输出目标就是干净的图像块。

极简架构的“反常识”胜利

实验结果让很多人意外：在低分辨率的小图上，猜噪声和直接画图的效果差不太多；但一旦进入高维空间，传统模型的FID指数级飙升，而JiT的FID却能稳定保持在1.8左右——在ImageNet 256×256和512×512的测试中，这个成绩已经是当前的顶尖水平。

更反常识的是，当研究者给JiT人为加上一个“降维瓶颈”时，模型的生成质量反而更高了。这就像是给模型加了一个“放大镜”，让它更聚焦于那面低维的“照片墙”，而不是被展厅里的噪声干扰。

JiT的训练过程也异常简洁：不需要预训练的CLIP或DINO特征对齐，不需要复杂的感知损失函数，甚至连VAE压缩都省了——它直接在像素空间工作，让神经网络做它最擅长的事：过滤噪声，保留信号。

被复杂化的扩散模型该回头了

这几年扩散模型的发展，像极了一场“军备竞赛”：为了提升一点点生成质量，研究者们不断给模型加新模块，从预测噪声到预测速度场，从latent空间对齐到堆更多的tokenizer。但很少有人停下来问：我们是不是把问题搞复杂了？

何恺明团队的研究，其实是在给这场竞赛踩刹车。他们用实验证明，扩散模型的本质就是去噪模型，不需要让它去做猜噪声这种“无用功”。直接预测干净图像，不仅训练更稳定，需要的算力更少，生成的图像质量还更高。

这种“大道至简”的思路，已经成为何恺明团队的标志性风格。从ResNet用残差连接解决深层网络的退化问题，到MAE用一半数据训练出顶尖的视觉模型，他们的创新永远不是做加法，而是做减法——把问题拆回最本质的样子，让模型做它最擅长的事。

当AI领域的很多人都在追求“更大、更复杂”时，何恺明团队的研究像是一种提醒：真正的创新，往往不是在现有框架上叠砖加瓦，而是回到问题的起点，重新思考“我们到底要做什么”。

JiT架构的成功，不仅给扩散模型的发展指了一条新的方向，更验证了一个朴素的道理：最有效的解决方案，往往是最简单的。未来的生成模型，或许会从这场“军备竞赛”中抽身，重新回归“去噪”的本质——毕竟，让模型直接画图，才是对“去噪模型”最朴素的尊重。

高维空间里的“无用功陷阱”

极简架构的“反常识”胜利

被复杂化的扩散模型该回头了

评论