新知 - 大圆镜｜AI超分终于不瞎了：能认出每一个物体细节

Q: AI修复照片，认错物体会怎样？

一旦认错物体，修复就会“对号入错座”。最常见的是纹理串门：叶子被画成猫毛、墙砖长出木纹；其次是边界“贴纸感”和发白光晕，几何结构被拉扯，窗格歪、栏杆弯。对关键语义更致命——人脸会出现身份漂移（五官比例、皱纹走样），文字区域被“美化”到不可读，车牌/表盘数字被改写；视频里还会因为实例切换带来闪烁和“角色互换”。 在实例感知管线里，这种错误会被放大：教师特征对齐会把学生推向错误语义，实例尺度约束会把错掩码内的块压成同一“风格”，出现局部对比度/粗糙度异常与块状感；扩散模型沿错误边界过度锐化，形成硬边和晕圈。更棘手的是，一些无参考质量分数仍可能很高，但ID相似度、字符可读性、几何一致性却明显下降。 缓解的关键是不盲信分割与语义：用置信度门控，低置信区域退回全局SR；采用软掩码与边界松弛，减少“贴边”伪影；对“人脸/文字/规则结构”叠加专门约束（ID保持、OCR可读、直线/平行保持）；引入时序一致分割与实例跟踪稳定视频；在训练中注入带噪掩码做鲁棒学习；产品侧提供交互锁定/修正实例，必要时多模态（文字、深度）交叉校验再生成。

Q: AI用“随机数”画画，为何更清晰？

“随机数”并不是让模型乱来，而是用来“打破对称”。在特征空间里，DINOv2把方向（语义）对齐，IS损失再给每个实例随机一个“半径”。同一实例被拉到同一随机半径，不同实例被拉到不同半径。且这半径每次迭代都会变，模型没法死记具体数值，只能学会先把像素正确分组到各自实例，再在角度与半径上同时聚拢与分离。结果就是潜空间里实例簇清清楚楚，互不粘连。 实例簇一旦分明，扩散去噪时就能把高频纹理“发”到对的地方：毛发不会漂到花瓶上，边界也不会被相邻实例拖糊。更妙的是，随机半径像一种隐式对比学习与正则化的结合，逼出更“平坦”的最优点，提升抗伪影与鲁棒性。推理阶段并不再用随机数，但训练中被重塑的几何让画面更锐利、更干净。唯一要拿捏的是半径分布的范围，过窄不分离，过宽会牵扯语义稳定性。

Q: 完美修复的旧照，是复活还是篡改记忆？

把旧照“修到完美”，多半靠模型在缺失处“补脑”。哪怕实例感知超分能更精准地给每个物体“对号入座”，它仍在生成相机从未记录的纹理。实验里人脸重建误差可低于5%，可这5%足以改变亲缘识别与情感记忆。别忘了：感知质量越高，不等于历史真实性越高。 复活与篡改的分界，不在清晰度，在可追溯与可逆。档案实践讲最小干预、可回退、留痕；行业标准也开始要求过程记录与标识。更稳妥的路径是“两轨制”：原件严保，另产“展示版”；公开修复掩码与改动清单，显著标注“AI增强”，叠加数字水印与C2PA溯源，让每一笔润色都有出处、能回退。 在家庭叙事里，它多是温柔的复活；落到公共史料与证据，它可能成为篡改。当我们让图像更动人时，也要给真相留条回头路——把修复当成诠释而非证据，这张旧照才既被“复活”，又不被“改写”。

对抗知识焦虑，从看懂这条开始

App 下载

你有没有过这种经历：翻出十年前的家庭合影，用AI放大修复后，爸妈的脸清晰了，可妈妈毛衣上的麻花针脚糊成了一片，背景里的老槐树叶子像打了马赛克——整体看着高清，细节却经不起盯。这不是AI偷懒，是过去的超分技术天生“脸盲”：它只会盯着整张图的全局清晰度，却分不清画面里的每一个独立物体。直到同济大学的团队掏出了InstanceRSR——这个能“认出”每个物体的AI，终于解决了真实世界超分“全局清楚、局部模糊”的老难题。

为什么过去的AI超分会“脸盲”？

真实世界的低分辨率照片，从来不是“高清图缩小”这么简单——它可能混着手机传感器的噪声、网络压缩的伪影、手抖造成的运动模糊，是一堆复杂退化的混合体。过去的超分模型，比如基于扩散模型的StableSR、DiffBIR，都把“全局一致性”当第一目标：它们会盯着低分辨率图的整体布局、颜色，确保放大后的图和原图“看起来像”。

但问题就出在这儿。这些模型用的去噪损失函数，更擅长抓整体的边缘、明暗，却对每个物体的精细纹理、边界没什么约束力。就像一群人挤在合影里，模型分不清谁是谁，把毛衣的针脚和背景的树叶当成了同类信息，糊在了一起。有个直观的对比：把StableSR和InstanceRSR的中间层特征可视化，前者的特征点像乱炖的豆子，不同物体的特征混在一起；后者的特征点却像分好类的货架，猫归猫，植物归植物，泾渭分明。

给AI装一双“认物体”的眼睛

InstanceRSR的核心思路，就是给AI补上“认物体”的能力。它没在复杂的退化模型上死磕，而是直接把“语义分割图”和低分辨率图一起喂给模型——简单说，就是不仅给AI看模糊的合影，还告诉它：“这块是人脸，这块是毛衣，这块是槐树叶子。”

这个分割图不用人工标注，直接用Meta的SAM模型自动生成——这个能给任何图像分清楚物体边界的模型，相当于给AI提供了一张“物体地图”。但光有地图还不够，团队又加了两道“对齐保险”：

第一道是语义对齐。请出Meta的DINOv2模型当“老师”，它能从高清图里提取出最准确的物体语义特征。InstanceRSR的扩散模型作为“学生”，要把自己生成的特征和老师的特征对齐——就像学画画时，老师告诉你“毛衣的针脚应该是这种交错的质感”，而不是随便画几道线。

第二道是实例尺度对齐。给每个物体分配一个随机的“浓度值”，比如毛衣是1.2，树叶是0.8，要求模型把同一个物体的所有特征都聚集在这个浓度值周围。这招的妙处在于，它不管具体数值，只要求模型能分清“这是毛衣”“那是树叶”——就像给每个物体贴了个独特的标签，再也不会混在一起。

这套组合拳打下来，AI终于能做到：全局清晰度靠低分辨率图保证，每个物体的细节靠“物体地图”和两道对齐机制精准还原。

效果有多硬？数据和眼睛都服

在DrealSR、RealSR等四个真实世界超分基准数据集上，InstanceRSR把所有主流指标都刷到了第一。比如衡量感知差异的LPIPS指标，它的分数最低——意味着生成的图和真实高清图在纹理、结构上最像；还有不需要真实高清图参考的MUSIQ、MANIQA等指标，它也全拿了第一，说明人眼看起来就是更清晰自然。

视觉对比更直观：用StableSR处理的窗户，格子歪歪扭扭；用InstanceRSR处理的窗户，横平竖直，每一根窗棂都清清楚楚。前者的花瓣脉络糊成一片，后者的花瓣纹理根根分明，连边缘的锯齿都清晰可见。

当然它也有局限：它依赖SAM的分割结果，如果SAM在复杂场景下分错了物体，比如把毛衣上的图案当成了背景，最终的超分结果也会跟着错。而且它需要调用SAM、DINOv2、DiT三个大模型，计算量不小，现在还没法在手机上实时运行。但这些问题，都挡不住它的核心价值：它给超分技术指了一条新路子——与其在退化模型里内卷，不如先让AI“看懂”画面里的每个物体。

InstanceRSR的出现，本质上是超分技术的一次“认知升级”：从“像素级的修复”，跳到了“物体级的理解”。过去我们总说AI能“生成”高清图，现在它终于能“读懂”要修复的内容了。

这不仅能让老照片修复得更逼真、监控画面看得更清楚，更给所有图像生成任务提了个醒：AI的生成能力，永远受限于它的认知能力。当AI能认出每一片树叶、每一根针脚，它才能真正还原出那个充满细节的真实世界。

看清细节的前提，是先看懂物体。

脉络

2003年

Sung Cheol Park等人发表了《Super-resolution image reconstruction: a technical overview》，系统梳理了图像超分辨率的基本理论和方法，为后续研究奠定了理论基础。

2008年

Bo Huang等人提出三维随机光学重构显微技术（STORM），实现了超越衍射极限的三维成像，对生物成像领域产生深远影响。

2009年

Daniel Gläsner等人提出了基于单幅图像的超分辨率重建方法，推动了从多帧到单帧超分辨率技术的发展。

2010年

Shuicheng Yan等人提出基于稀疏表示的单幅图像超分辨率方法，首次将稀疏信号理论引入该领域，显著提升了重建质量。

2012年

Marco Bevilacqua等人提出基于非负邻域嵌入的低复杂度单幅图像超分辨率算法，兼顾了效率和性能，在实际应用中具有较大意义。

2014年

Chao Dong等人提出利用深度卷积神经网络进行图像超分辨率（SRCNN），开创了深度学习在超分领域的应用新纪元。

2014年

Martin Ovesný等人开发了ThunderSTORM，作为ImageJ插件为PALM和STORM超分辨率显微数据分析提供了强大工具，促进了数据处理自动化。

2015年

Chao Dong等人进一步完善SRCNN，提出端到端的深度卷积网络超分方法，成为后续深度学习超分模型的基石。

2015年

Jia‐Bin Huang等人提出基于自变换样本的单幅图像超分辨率方法，利用图像内部自相似性提升重建效果。

2016年

Jiwon Kim等人提出超深卷积网络（VDSR），通过增加网络深度显著提升了超分辨率的准确性和细节还原能力。

2016年

Wenzhe Shi等人提出高效的亚像素卷积神经网络，实现了实时单帧和视频超分辨率，提高了推理速度。

2016年

Jiwon Kim等人提出深度递归卷积网络（DRCN），通过网络递归结构有效提升了超分辨率性能。

2017年

Christian Ledig等人提出基于生成对抗网络（GAN）的单幅图像超分辨率方法（SRGAN），首次实现了高感知质量和真实感的图像重建。

2017年

Eirikur Agustsson等人举办NTIRE 2017单幅图像超分辨率挑战，提供大规模数据集，推动了模型性能对比和标准化。

2017年

Ying Tai等人提出深度递归残差网络（DRRN），结合递归和残差结构，进一步提升超分辨率效果。

2018年

Yulun Zhang等人提出深度残差通道注意力网络（RCAN），通过引入通道注意力机制提高了细节恢复能力。

2018年

Yulun Zhang等人提出残差密集网络（RDN），有效聚合多层特征，提升了超分辨率的重建质量。

2019年

Tao Dai等人提出二阶注意力网络（SAN），通过高阶特征建模进一步提升单幅超分辨率性能。

2019年

Jianrui Cai等人提出用于真实场景单幅图像超分辨率的新基准与新模型，推动了超分方法向实际应用转变。

2019年

Andreas Lugmayr等人举办AIM 2019真实场景超分辨率挑战，推动产业界和学术界交流及算法进步。

2020年

Zhihao Wang等人发表深度学习图像超分辨率综述，系统总结了主流方法、挑战及未来方向，对新入门者具有指导意义。

2020年

Xiaozhong Ji等人提出基于核估计与噪声注入的真实世界超分辨率方法，提升了算法对真实降质的适应性。

2020年

Pengxu Wei等人提出组件分治策略，针对真实图像的复杂退化，实现更鲁棒的超分重建。

2020年

Andreas Lugmayr等人举办NTIRE 2020真实场景超分辨率挑战，进一步推动了算法标准化与实际应用进展。

2021年

Xintao Wang等人提出Real-ESRGAN，利用纯合成数据训练实现真实世界盲超分辨率，提升了泛化能力。

2021年

Yiqun Mei等人提出结合非局部和稀疏注意力的超分模型，在提升重建质量的同时增强了模型表达能力。

2022年

Chitwan Saharia等人提出SR3扩散模型，通过迭代细化实现高质量图像超分辨率，扩展了生成模型应用。

2022年

Haoying Li等人提出SRDiff，基于扩散概率模型实现单幅图像超分辨率，展示了生成式模型的新潜力。

2022年

Zhisheng Lu等人提出基于Transformer结构的单幅图像超分辨率模型，突破了传统CNN的局限，提升了全局特征建模能力。

2022年

Xindong Zhang等人提出高效长距离注意力网络，针对超分任务优化全局信息捕捉，提升了重建效果。

2023年

Xiangyu Chen等人提出激活更多像素的超分辨率Transformer方法，进一步提升了低层视觉任务的表现。

2026年

X.Y. Le等人提出GLUS方法，利用引导损失驱动的Plug-and-Play扩散模型，实现超声图像的超分辨率重建，拓展了应用场景。

2026年

Baidong Wu等人系统比较不同形状的TiO2超材料固体浸没透镜，并结合深度学习，实现高性能超分辨率成像，推动了物理与AI结合发展。

2026年

Ran Huo等人发布Open Blink低成本TIRF显微镜设计资源，推动超分辨率显微成像的普及和开放科研。

2026年

Sijie Li等人提出基于数字阵列调制的三维超分辨率成像方法，显著抑制背景噪声，提升三维成像质量。

2028年

Hui Qiu等人系统评估荧光标记和超分辨率成像方法在嗜盐古菌中的表现，推动超分技术在极端生物学领域的应用。

为什么过去的AI超分会“脸盲”？

给AI装一双“认物体”的眼睛

效果有多硬？数据和眼睛都服

评论