AI的进步靠“算力”还是“脑力”？

既要算力，也要脑力，但侧重因时而变。把边界往外推，常靠大算力沿着缩放律“硬拱”到新能力层级；而把同一范式打磨到极致、降低单位性能成本，往往靠脑力。过去十年里，多项基准上达到同等精度所需算力约减少一个数量级以上（ImageNet等任务呈现≈16–20个月效率翻倍、累计≈44倍降算），MoE、蒸馏、检索增强和指令微调也频频用更少算力换来质变。何时押哪边？若数据可扩、曲线仍线性向上，堆算力最划算；一旦遇到数据瓶颈、指标涨势放缓、部署受限，脑力的“工程优化”更有性价比——比如用更优数据策划、渐进训练、测试时增强，在固定结构下拿到肉眼可见的增益。最稳的路径不是二选一，而是先用脑力找对增益杠杆，再用算力把杠杆放大。

为一张完美照片，你愿等相机处理多久？

要不要等，取决于拍什么。抓拍、娃娃跑动、赛场瞬间，我几乎不愿多等：0.5秒内出片最理想。人机交互有个经验曲线：0.1秒近乎瞬时，1秒还能保持专注，10秒多半走神；影像链路多等超过1秒，主观体验显著变差，还可能因发热降频拖慢下一次快门。但当目标是“这张必须完美”的夜景、静物或风光，我愿意多等2–3秒；上三脚架、打算大幅打印或深度修图时，5–8秒也能接受。要看清边际：重计算的测试时自集成从×1到×8，通常只是把噪点更匀、边缘更稳，肉眼提升有限。更聪明的做法是×2/×4折中，或“渐进式”：0.5秒给可用预览，后台继续精修，随时可停。结论就两句：为一次性重要回忆，我最多多等2–3秒；为作品级输出、三脚架在手，我愿等到5–8秒。其他场景，别拿等待换那“一丢丢”提升，把机会留给下一次 decisive moment。

AI降噪能帮医生看清癌细胞吗？

能，但要用对。对显微与高分辨率成像，AI降噪常能把被噪点遮蔽的细节“擦出来”——细胞核边界、微血管、浸润边缘更清楚。已有动物实验把脑胶质瘤三维定位误差从百微米级拉到十微米级；在肺结节早筛中，配合优化重建的降噪把阅片时间从约15分钟降到3分钟，恶性结节漏诊率下降约68%，早诊率提升逾四成。低剂量CT、MRI、内镜等场景，基于物理一致性的重建型网络已在多家医院稳定应用。但降噪不是“美颜滤镜”。过度平滑会抹掉微小病灶，甚至“造假”结构。临床上更稳妥的路径是：在原始数据域（CT投影、MR k-space）进行物理约束降噪，守住HU、SUV等定量指标；用读片者研究和任务型指标评估，而不只看PSNR；做跨设备、跨中心的域泛化校准；对关键病例保留“降噪前后对照”和不确定性热图。这样，AI降噪不仅让图更干净，也让诊断更可信。

新知 - 大圆镜｜不改模型结构，图像去噪性能暴涨3分贝

大圆镜

内容由AI生成，思考得你完成

App Store 下载 Android 下载

给模型喂出一个“超级素材库”

你可以把AI模型想象成一个学画画的学生：如果只让他临摹100张静物画，他画风景肯定不行；但要是给他看14万张从2K到8K的高清图，涵盖城市街景、山川湖海、微观纹理，他对光影和细节的理解会完全不一样。

这支团队就是这么干的。他们放弃了过去常用的三四套标准数据集，一口气整合了7大来源的图像：既有DIV2K、Flickr2K这类老牌高清图库，也有专门的户外场景集OST、8K分辨率的LIU4K-v2和NKUSR8K，甚至还有包含8.7万张图的大规模修复专用集LSDIR，总规模超过14.3万张。为了不让8K大图“噎着”模型，他们还聪明地把8K图裁剪成2K子图，既保留了发丝、毛孔这类精细纹理，又保证了训练的稳定性。

这不是简单的“堆数据”——他们还给数据做了“精细化筛选”：只留分辨率超过900×900的图，用算法评估图像清晰度，甚至用CLIP模型平衡语义多样性，确保模型学的不是重复的“模板”，而是真实世界的万千细节。

两阶段训练：先打基础再练绝招

数据准备好了，怎么喂也是学问。直接把14万张图一股脑塞给模型，就像让小学生直接读大学教材，肯定消化不了。团队设计了一套“两阶段渐进式训练法”，像练级打怪一样稳扎稳打。

第一阶段：夯实基础。他们从官方预训练的Restormer模型出发，先用DIV2K、Flickr2K、OST和LSDIR这四套“基础教材”训练。训练时，图像块尺寸从256慢慢涨到768——就像先让学生画巴掌大的小画，再练全开的大画幅，让模型逐步学会捕捉更大范围的上下文信息。这一阶段的目标，是让模型建立起扎实的“图像修复直觉”，不会把人脸修成模糊的面团。

第二阶段：开拓视野。等模型在基础数据集上练稳了，再引入LIU4K-v2、NKUSR8K和DIV8K这三套“进阶教材”。这些超高清图里的纹理细节更丰富，比如树皮的裂纹、布料的编织纹路，能逼着模型跳出“舒适区”，学会处理更复杂的场景。为了不让模型卡在局部最优解里，他们还交替用L1、L2和小波变换损失函数训练，就像换不同的老师批改作业，让模型能从更多角度修正错误。

这套训练法的效果是显著的：在验证集上，仅数据扩充和两阶段训练带来的性能提升，就占到了总提升的99%以上。

推理时的“组合技”：用8倍算力换极致精度

模型训练好了，怎么用才能发挥出最大实力？团队最后加了个“小绝招”——几何自集成。

你可以把这个方法想象成：让同一个学生从正面、侧面、倒着、翻过来等8个角度看同一张模糊的画，然后把8个角度画出的清晰图拼在一起，取平均值。具体来说，就是把带噪图像做8种几何变换：水平翻转、垂直翻转、旋转90°/180°/270°，还有这些变换的组合，然后分别输入模型得到8个去噪结果，再把结果转回到原来的方向，最后取平均值。

这个方法的原理很简单：神经网络对图像的方向有点“脸盲”，同一个物体，正着看和倒着看，模型给出的结果可能会有细微差别。把8个结果平均，就能抵消这些随机波动，得到更稳定、更准确的输出。当然，天下没有免费的午餐：这个方法会让推理时间变成原来的8倍，从1秒左右涨到8秒，适合对精度要求极高但不着急出结果的场景，比如专业摄影修图、医学影像处理。

实验显示，这个“组合技”虽然只带来了0.027分贝的PSNR提升，但胜在稳定可靠——就像给已经很完美的画，再补了几笔精细的细节。

当我们为AI模型的性能瓶颈发愁时，总习惯性地想“换个更复杂的模型”，就像总觉得成绩不好是因为没买更贵的辅导书。但这次的突破告诉我们：有时候，把现有的“辅导书”读透、读全，比不断买新书有用得多。

这不仅仅是图像去噪领域的突破，更是AI研究范式的一次小小转向：当模型架构趋于成熟时，性能的天花板，往往不在模型本身，而在我们喂给它的数据、训练它的方法，以及使用它的策略。数据决定下限，训练决定上限。未来，或许会有更多研究者从“追新模型”转向“挖深潜力”——毕竟，把一件事做到极致，本身就是一种创新。

给模型喂出一个“超级素材库”

两阶段训练：先打基础再练绝招

推理时的“组合技”：用8倍算力换极致精度

评论