用AI修复宇宙照片，能看到啥？

用AI把“糊”的宇宙照片修好，首先会多出一层层原本被噪声与模糊吞掉的微结构：星系盘里的尘埃细纹、恒星形成的亮结、极其微弱的潮汐尾和爱因斯坦环上的反像小结；原行星盘的细窄缝与环、活动星系核喷流上的结珠状冲击；超新星遗迹的薄壳边界与波前。此外，地基望远镜在去湍流与“幸运成像”加持下，能更清晰分辨紧密双星、近地小行星轮廓，乃至太阳表面的细粒状纹理。这些“多看到”的东西并非凭空想象，依赖物理可解释的点扩散函数、真实退化建模与多曝光/多波段一致性校验；做得好，就能显著改进星系去混叠、弱引力透镜剪切测量与形态学参数估计，让本该长曝光才能捕到的暗弱结构更早浮现。但也要警惕纯生成式幻觉纹理——越逼真越需交叉验证，才能把美图变成可靠的科学证据。

AI的“图像词典”里藏着什么秘密？

它装的不是“词”，而是一组跨数据集反复出现的视觉原型：从不同尺度与方向的边缘、角点、条纹，到城市建筑的窗格/立面重复纹理、漫画中的描线与网点。这些原型像一排“全局查询”，通过与整幅图像的patch做交叉注意，把远隔却相似的区域瞬间连起来；而注意力里派生的“类别”，本质是一次软聚类与动态路由，近似轻量版的专家混合，让信息只在同类特征间高效流动。它之所以灵，是因为字典既承载训练集的通用先验，又在测试时做小幅自适应，把“通用原型”捏成“此图专属词条”，在Urban100、Manga109那类高重复结构场景尤为吃香。代价与边界也清晰：字典太小会丢细节，太大会拖慢显存与带宽；遇到强随机纹理或非重复结构，收益趋于平坦。想窥探这本“词典”，可做三件事：可视化每个原型最高注意的patch簇，看它代表的形状/纹理频带；跟踪测试时原型的位移幅度，量化自适应强度；统计类别内的远距通信比例，验证它是否真的在做“全局但稀疏”的信息交换。工程上，它还能作为可插拔的全局记忆模块，给现有SR/去噪骨干一条稳定的线性复杂度“捷径”。

修复旧照片，AI会“杜撰”历史吗？

会。多数“AI修复/超分/上色”在信息缺失处依赖训练先验进行补全，本质是有条件生成而非“找回”。当底片信息不足，模型会按数据分布去“合理想象”：制服或校服颜色、肤色与发质、织物花纹、墙面字样与徽章细节都可能被臆补；人脸尤甚，扩散/GAN常把模糊面孔“美化”“年轻化”，甚至偏移族裔特征；超分还可能把不可辨认的文字“变成”另一段可读内容。但“杜撰”可被压低。关键在于把可验证修复与演绎重构划清边界：优先使用含数据一致性项的保真方法（非盲去噪、去划痕、受约束超分），仅在掩膜内修补破损；输出不确定性/差异图，标注哪些区域为推测；保留原始扫描、处理参数与版本链，并嵌入C2PA内容凭证；上色统一标注“解释性上色”，避免与证据影像混放。给观者的实用尺子：凡细节锐度明显超出底片或扫描分辨极限者，一律当作推断而非证据。涉及制服配色、旗帜/标语、地名牌匾等应与档案交叉核验。面向公众发布请附技术说明与置信声明，提供原图对照与可回退文件；否则，AI确实可能在不经意间把记忆“润色成史”。

新知 - 大圆镜｜Transformer图像复原瓶颈，被这本“字典”打破了

对抗知识焦虑，从看懂这条开始

App 下载

被格子困住的Transformer

你可以把Transformer处理图像的过程想象成拼拼图：传统方法是把整幅图切成几百个小格子，AI只在每个格子里拼碎片，格子之间的连接全靠猜。这种叫“基于窗口的自注意力”的机制，确实把计算量从“平方爆炸”降到了线性增长，让AI能处理高分辨率图像，但代价是——它永远不知道格子外面的碎片长什么样。

比如修复一张有河流的卫星图，河流从左上角流到右下角，被切成了十几个格子，AI在每个格子里都能认出“这是水”，但就是没法把这些水连成一条完整的河。电子科技大学数据智能团队的顾舒航教授和博士生张乐恒，把这个问题叫做“全局建模瓶颈”——AI能看清局部细节，却看不懂整体结构。

一本让AI开天眼的“字典”

团队提出的自适应词元字典（ATD），本质上是让AI在训练时偷偷记一本“图像结构百科全书”。训练的时候，AI会把见过的所有典型图像结构——比如直线、曲线、纹理、边缘——都拆解成一个个“词元”，存在这本字典里。等到处理新图像时，它会先用“词元字典交叉注意力”把输入图像的特征和字典里的典型结构做比对：哦，这个区域的纹理和字典里的“农田”匹配，那个区域的曲线和“河流”匹配。

更聪明的是，它会根据匹配结果把整个图像的特征分成不同类别，比如“农田组”“河流组”“建筑组”，然后在每个组里做自注意力计算——这就相当于跳过了格子，直接把全图里所有相似的结构拉到一起处理。计算复杂度还是线性的，但AI终于能“看见”全局的结构了。

打个比方，以前AI是在几百个小房间里各自拼拼图，现在它先把所有蓝色的碎片（代表河流）都收集到一个房间，所有绿色的碎片（代表农田）收集到另一个房间，拼出来的自然是完整的河流和农田。

从数据到视觉的实打实提升

实验结果比理论更有说服力：在图像超分辨率任务中，ATD和它的轻量化版本ATD-light，在Set5、Set14等5个国际基准数据集上的PSNR（峰值信噪比，数值越高图像越清晰）都超过了当前的主流模型；多尺度版本ATD-U在图像去噪和JPEG压缩伪影去除任务中，同样实现了对现有方法的显著超越。更关键的是视觉效果：修复后的老照片，人物的头发和背景的窗帘不再出现断裂；放大后的卫星图，河流和道路的连续性完全符合现实。当然，它也不是完美的——比如处理极端复杂的抽象艺术图像时，字典里没有对应的典型结构，效果会打折扣；而且要在移动端实现实时处理，还得进一步压缩计算量。

从只能看格子到能看全图，ATD的突破不止是提升了图像复原的质量，更重要的是它给Transformer找到了一种新的思路：不用在“计算效率”和“全局视野”里二选一，而是可以用外部先验知识来搭桥。未来，这本“字典”里或许会加入更多内容——比如不同场景的语义信息、不同材质的纹理特征，甚至是多模态的先验知识。但现在，我们已经能看到一个更清晰的未来：AI不仅能修复图像的细节，更能理解图像的“灵魂”。 用先验知识，打破算力的围墙。

被格子困住的Transformer

一本让AI开天眼的“字典”

从数据到视觉的实打实提升

评论