如果AI猜错了被挡住的东西呢？

它会把整条链路带偏：错的推理文本会把检索导向不相干的照片，修补模型再把“错参考”粘进来，常见后果是身份漂移（发型/眼镜不对）、几何错位（五官比例怪）、光照断层，尤其在>50%大遮挡时更明显。可化解的招不少：让VLM一次生成多种假设，自一致投票选稳妥的；并行跑“仅视觉检索”和“图文组合检索”，若两者前列候选不重合就触发降级或人机确认；在可见区域做身份与几何校验（人脸/身体嵌入相似度、关键点对齐误差），据此重排top-k候选；对VLM输出设置信心阈，低置信直接退回通用修补或只用可见区特征检索；生成初稿后再做一次身份与CLIP一致性复核，不合格自动换用下一参考图。最实用的产品手段是给出数张快速预览，让用户一眼挑对。

除了P图，还能修复什么古物？

除了P图，AI已在二维文物上大显身手：宋画、壁画、经卷、丝织品。先用高分辨采集与多模态检测，GAN/扩散模型补纹理与色彩，分割/OCR精确定界缺损；敦煌等机构用数字孪生+VR做可逆“试修”，在8K实时渲染下比对方案；壁画病害用PMT扫描建病害图，流程提效可达数倍；还有AI+超薄膜的“无添加修复”，数小时内复位油画缺失笔触；兵马俑亦以AR复原失落彩绘。三维器物同样可“复原”。青铜器、陶瓷、石刻与雕像先以激光/结构光重建，再由算法自动拼合碎片、推断缺块形状与纹理；如将多视角照片串成“旋转视频”的方法，可在参考约束下补齐缺口，较传统流程提速约四倍，并输出1:1数字复制做3D打印试配；石刻碑文则用多尺度去噪与修补，让被风化抹去的字迹重现。但修什么、怎么修，有边界。修复界强调“可考据、可回退”，AI应先在数字孪生里验证应力、色阶、笔触再落地，避免凭风格学“想象补全”。这样既守住历史信息，又让古物重焕可读性。

AI修补记忆，还是伪造记忆？

既能修补，也可能伪造，关键看“证据链”。AlbumFill并非凭空脑补，它优先把缺失处“借”自同一人的相册照片，这更像修复被遮挡的真实细节；但一旦VLM推错语义或检索到姿态/光照不匹配的图，生成环节会把“似是而非”的像素糅进去，这时就是在重写记忆。警示信号很直白：论文里用错身份参考后，DINO从95.71跌到90.50，视觉上仍“顺眼”，却已偏离事实。判断修补还是伪造，不靠感觉要靠可审计性。可行做法是：强制引用来源透明（哪张相册图、哪一块区域被拷入），给出人脸嵌入距离阈值与姿态匹配分，低于阈值才允许自动合成；否则改为“半自动”，让用户在Top-k候选中确认。同时写入C2PA类溯源凭证和可视化差分图，确保事后可追责。只有当像素与来源可对齐、过程可复核，这份“记忆”才算被修补，而非被改写。

新知 - 大圆镜｜被挡的照片不用愁，AI自动从相册找参考补全

对抗知识焦虑，从看懂这条开始

App 下载

三步流水线：从“猜”到“精准匹配”的跨越

你可以把这套框架的工作流程想象成一个专业修图师的完整操作：第一步先“问诊”，用视觉语言模型（VLM）分析照片可见部分——比如看到露出的半副眼镜和卷发，就推理出“被挡的是一个戴黑框眼镜的卷发女生”；第二步去“找素材”，用组合图像检索技术（CIR）把这个推理描述和照片可见部分结合，在相册里快速定位到同一张脸、同个发型的清晰照片；第三步才是“动手修”，用参考式扩散模型把找到的参考图细节无缝补到被遮挡的位置。

这里的关键是组合图像检索——它和你平时用相册“搜照片”完全不同。传统图像检索只能靠视觉特征找相似，文本检索只能靠关键词，但组合检索能把“半张戴眼镜的脸”这个视觉信息，和“戴黑框眼镜的卷发女生”这个文本描述捏合在一起，像给AI装了个精准的“搜索雷达”，不会把你朋友的同款眼镜照片也捞出来。

零训练的底气：用现成模型搭出高效流水线

这套框架最让人意外的一点，是完全不需要针对你的相册做任何训练。它就像用超市里的预制菜拼出一顿大餐：默认用Qwen3-VL做视觉推理，用LinCIR做组合检索，用UniReal做图像修补——这三个都是已经在各自领域验证过的预训练模型，连在一起就能直接干活。

LinCIR这个检索模块尤其值得说：它不需要专门用“照片+描述+目标图”的三元组数据训练，只靠语言数据就能学会理解“图像+文本”的组合查询。在测试中，它在四个零样本检索基准上都拿到了最佳成绩，甚至在时尚商品检索数据集上超过了专门训练的监督模型。这意味着它能快速适应任何用户的相册，不用等几个小时的训练时间。

仍在补的短板：离完美还差三步

当然，这套框架还不是万能的。首先它极度依赖视觉语言模型的推理准确性——如果VLM把“戴帽子的男生”误判成“戴头盔的女生”，后面的检索和修补就全错了；其次它目前只针对人像照片优化，要是你想补被挡住的宠物或风景，效果会大打折扣；最后就是硬件门槛，跑8B参数的VLM和扩散模型，还是需要像样的GPU支持，暂时没法在千元机上流畅运行。

在5万多张人像照片的测试集里，它的检索准确率在Recall@1上只有7%——听起来不高，但对比其他零样本方法已经是最好成绩。这也说明，让AI精准理解“半遮半掩”的视觉信息，依然是个难题。

从手动找参考到AI自动完成，这不仅仅是操作步骤的减少，更是AI图像修复思路的转变：从“生成相似内容”转向“还原真实细节”。以前我们用AI修图，是让它“猜”我们想要什么；现在我们让它“找”我们已经拥有的——那些散落在相册里的、属于我们自己的真实瞬间。

未来它或许能学会跨相册找参考，或许能在手机本地完成所有运算保护隐私，或许能把宠物、风景都纳入修复范围。但现在，它已经给了我们一个新的可能：不用再为一张被挡住的照片遗憾，AI会帮你从记忆的碎片里，拼回完整的瞬间。

金句：AI修图的未来，是还原真实的自己。

三步流水线：从“猜”到“精准匹配”的跨越

零训练的底气：用现成模型搭出高效流水线

仍在补的短板：离完美还差三步

评论