AI修图，在讨好机器还是你？

如果只看今天的大多数训练流程，AI修图首先在讨好“机器”。原因很现实：指标可度量、可自动化、可并行。像这次NTIRE赛道把LPIPS、DISTS、CLIP‑IQA、MUSIQ、MANIQA、NIQE揉成感知分数，队伍便把这些IQA直接写进损失里，模型学会“考纲导向”的提分术——更强的锐化、对比和纹理“补课”，分能涨，但在人脸、肤色和夜景上常出现过度修饰。更何况NR‑IQA与人类偏好在跨域时相关性常掉到中等水平，NIQE在生成内容上更容易失真。可一到产品落地，赢家必须讨好“你”。头部相机与修图应用用成对偏好、MOS与大规模A/B持续校准，把人类偏好蒸馏进轻量学生网；再按地域与人群做肤色与白平衡的分层曲线，并给用户强度滑杆和风格开关，把“你的口味”变成条件输入。同时用人脸结构一致性、纹理可信度门控等约束兜底，防止“高分假美感”。结论很简单：训练阶段偏向讨好机器，体验阶段必须讨好你。未来的胜负手在“指标到偏好”的对齐能力——小样本个性化、端侧隐私学习与可控生成；评测也会从IQA独角戏，走向“人群偏好+速度+能耗”的三重记分牌。

照片秒变高清，实时视频还远吗？

不远。行业里已经在量产机上跑通了720p/1080p的30–35fps端侧视频超分，部分轻量模型在中端芯片上也能做到单帧10ms级别，这在通话、直播等场景已足够“实时”。这次NTIRE把单帧推理做出两位数到百倍的加速，说明把“蒸馏+算子友好”的套路迁到视频管线，算力本身不再是天花板。真正的关卡在“稳”：逐帧超分会闪烁、纹理漂移、运动伪影。要用时序对齐与复用（光流/可变形对齐+递归状态）、时序感知损失来稳住连续性，再配ROI优先（先做人脸/文字）、自适应倍率与帧率切换、INT8量化与低带宽特征传递，把功耗压在约2W以内，避免热降频后的掉帧。判断节奏：未来12个月，高端机的相机预览与视频通话大面积落地1080p30–60实时超分；4K30会先以“关键帧重建+中间帧轻修复”的混合方案出现；而真正稳定的4K60，还要等一到两代NPU/内存带宽升级，或低比特/稀疏化与长程记忆模型更成熟后再全面铺开。

AI抹去瑕疵，会P掉你的记忆吗？

会。很多“瑕疵”其实是记忆的锚点：手抖的拖影、夜色里的噪点、压缩留下的块感，都在提示当时的光线、情绪与动作。用生成先验做超分或“魔法橡皮”后，模型会补纹理、改结构，让画面更“顺眼”却偏离原像素。心理学研究已反复发现，经修饰或合成的个人照片能让约三至五成的人产生或强化错误回忆；哪怕轻度磨皮、改光影，也会显著降低对现场细节与发生顺序的信心。不想让记忆被P掉，有几条铁律：始终保留原片，与编辑版并存，启用相册的非破坏性编辑与版本历史；打开内容凭证或可检索水印（如C2PA类“内容凭据”），让每次修改可追溯；重要影像优先用“低幻觉/保真”模式，只做可逆去噪，保留EXIF与时间戳；对证据性场景禁用生成式修复；让应用提供“再降采一致性检查”和不确定性热图，标出可能被AI臆造的细节。更好看与更真实，最好分开保存与清晰标注。

新知 - 大圆镜｜手机超分快113倍还不糊，这届竞赛玩明白了

对抗知识焦虑，从看懂这条开始

App 下载

从爬楼梯到坐电梯：单步扩散的魔法

你可以把传统的超分模型想象成爬楼梯——要从模糊的低清图爬到高清图，得一步一步去噪、修复，每一步都要算半天，手机处理器根本扛不住。而这次竞赛里的「单步扩散模型」，直接把楼梯改成了电梯。

传统扩散模型要花几百步迭代去噪，就像你要擦干净一个满是泥点的盘子，得蘸水、打洗洁精、反复擦拭几十次。单步扩散模型则是直接把脏盘子放进洗碗机，一次操作就搞定。它跳过了中间所有的迭代步骤，用一个训练好的网络，直接把低清图映射成高清图。

但真实的机制比洗碗机更精确：它不是凭空生成细节，而是通过学习海量图像的「纹理规律」，比如皮肤的毛孔、树叶的脉络，在低清图的基础上补全最合理的细节。TODSR团队还做了个更巧妙的优化：他们把低清图的特征和扩散模型的潜在空间做了「对齐」，就像给电梯精准定位到你所在的楼层，不用再一层层停靠，进一步提升了稳定性和速度。

让大模型当老师，小模型学本事

如果说单步扩散是解决了「快」的问题，那「知识蒸馏」就是解决了「好」的问题。你可以把它想象成：一个教授（大模型）把自己几十年的知识，浓缩成一本薄讲义（小模型），让学生（移动端模型）不用读几百万字的专著，就能掌握核心内容。

三星AICamera团队的方案就是最好的例子：他们先用一个性能超强的大模型OSEDiff生成高清图，然后让一个轻量的小模型去「模仿」大模型的输出。这个小模型就像一个学徒，跟着教授一笔一划地学，最后画出来的画，和教授的几乎一模一样，但耗时只有几十分之一。

他们还加了个「细节增强模块」，就像学徒学完基础后，专门去练最容易出效果的细节——比如人物的睫毛、建筑的窗格。这样一来，小模型不仅快，还能保留大模型的细节质感。更关键的是，整个过程不需要大模型一直在场，学生学会了就可以独立干活，完美适配手机的有限算力。

不是选A或B，而是A+B：混合架构的巧思

这次竞赛里还有个有意思的趋势：越来越多的团队不再执着于「用哪种模型最好」，而是开始「混搭」。就像你做饭时，不会只用电饭锅或炒锅，而是根据食材选最合适的工具。

YuFans团队就把扩散模型和GAN模型的输出按7:3的比例融合——扩散模型擅长生成丰富的纹理，但偶尔会有伪影；GAN模型擅长保持结构稳定，但细节不够生动。把两者的输出像调鸡尾酒一样混合，再加上一点后处理的「调味」，最后出来的图既有扩散模型的细节，又有GAN模型的稳定。

更聪明的是他们的训练方法：直接把竞赛用来评分的6种图像质量指标，当成了模型的「学习目标」。就像考试前老师直接把考点告诉你，你不用瞎猜重点，直接对着考点复习。这种「指哪打哪」的优化，让模型的得分直接拉满，也给未来的研究指了条明路：与其追求「完美的模型」，不如追求「最适合任务的模型组合」。

这场竞赛最让人兴奋的，不是113倍的速度提升，而是它打破了一个持续十年的偏见：移动端AI就只能是「低配版」。过去我们总觉得，要在手机上跑AI，就得牺牲性能、降低精度，但这次的冠军方案证明，只要找对了方法，鱼和熊掌可以兼得。

未来的手机拍照，可能再也不会有「糊片」的烦恼：你随手拍的一张夜景，手机能在瞬间把噪点去掉、把暗部细节拉满；你存了十年的旧照片，一键就能修复成4K高清。更重要的是，这种「算法+硬件」的协同优化思路，会从超分扩散到更多领域——比如实时翻译、AR特效、自动驾驶。

真正的高效，不是妥协，而是精准的适配。 当我们不再强求用大模型解决所有问题，而是学会让小模型「聪明地干活」，移动端AI的黄金时代才刚刚开始。

从爬楼梯到坐电梯：单步扩散的魔法

让大模型当老师，小模型学本事

不是选A或B，而是A+B：混合架构的巧思

评论