给彩虹拍照，AI会“好心”P掉雨丝吗？

你对着天边那道绚丽的弧线按下快门，回看手机却发现画面干净得像从没下过雨——这不是错觉，是AI在“好心”打扫战场。现代相机的“聪明”并不只认得彩虹，它还会把画面里一切被判定为噪声、模糊或干扰的细线条统统处理掉，雨丝常常首当其冲。为什么会被“P”掉？因为在多数计算摄影和后期增强管线里，雨丝的视觉特征跟“噪声”高度相似：细、稀疏、高频，且在多帧之间快速变化。手机的多帧降噪与HDR融合会对“帧间不一致”的东西做时间平均，雨丝因此被淡化乃至消失；单帧的深度去噪、去雾、锐化也会把它们当作应清除的退化成分。近来像Derain-Agent这样的智能体框架更是把“诊断—开方—定剂量”的思路引入低层视觉：先判定画面里残留的噪声、模糊、色偏；再从工具库里规划一条最佳序列（如降噪→去模糊→调色）；最后按像素级强度图进行“定点用药”。这类系统的目标是让画面更清、更干净，雨丝自然很可能被“温柔而坚定”地处理掉。彩虹会怎么样？彩虹位置相对镜头和太阳基本稳定，多帧融合不一定抹除它，但全局色调映射和白平衡校正可能压低彩虹的饱和度，让它看起来“淡了”。再加上局部对比度增强若把彩虹误当条带或眩光，也可能被软化。更有趣的是偏振效应：彩虹本身强偏振，旋转偏振镜能让它更亮或几乎消失——人类一转手腕，效果胜过任何AI。有没有不被AI“好心”修掉的时刻？有。单帧RAW基本不做多帧融合，能较好保留细雨；镜头上的附着水滴形成的大斑点、衍射和鬼影有时会被算法当作“真实主体的一部分”保留下来；极端大雨形成的整体雾幕更像低频对比度损失，难以被简单“擦干净”。如果你想保留雨丝与彩虹的共舞，可以这样做： - 争取单帧：关闭夜景/多帧降噪/运动照片/AI场景增强，用Pro/手动模式拍摄；开启RAW或ProRAW，必要时用第三方相机App直录RAW。 - 控制快门与背景：1/30–1/60可留下柔和雨线，深色背景更显雨丝；微微欠曝（-0.3至-1EV）有助彩虹显色，后期再拉回阴影。 - 小心后期：避免强力去噪、去雾与“自动增强”；用局部工具只修剪脏点，不触碰彩虹和雨区；提升“自然饱和度”而非极端饱和。 - 用偏振镜试探：慢慢旋转，找到让彩虹最鲜明的位置；记得别把它完全“旋没”了。如果你反而希望画面清透、只留彩虹不留雨，AI也能很专业。典型流程是先用降噪网络削弱高频雨丝，再用去模糊模型稳住边缘，最后做色彩与白平衡校正；更智能的方案会像Derain-Agent那样按区域分配“药量”，天空多降噪、主体少动刀，保留细节又不留颗粒。一个小提醒：社交平台常自带“无感修图”，上传后雨丝会被进一步淡化。若你珍惜当时的雨意，请保存原片或RAW版本；若只想“晴天明信片”，那就让平台帮你最后再“擦一擦”。归根结底，这是一道审美选择题。AI可以替你扫清风雨，也可以为你留住潮湿的空气与闪烁的水线。拍彩虹时，不妨先问问自己：我想记录的是一幅色带，还是一场天气？当我们能清楚地给出这个答案，AI就不再是擅作主张的修图工，而是懂你心意的暗房助手。

让大语言模型指挥，修图效果会更好吗？

想象一位“后期总导演”坐在剪辑台前，不亲自去挪每一帧像素，却能根据画面内容与风格诉求，调度降噪、去模糊、调色等专业师傅，安排谁先上场、哪里加重、哪里轻放。这位总导演如果换成大语言模型，会不会把修图带上一个新台阶？答案是：会，但前提是让它指挥，而不是让它亲自拿剪刀。低层视觉修复要的是真刀真枪的像素运算，当前最强的仍是专业工具与恢复网络；而大语言模型长于“理解-规划-沟通”。把它当“策划/调度中枢”，效果往往优于把它当“像素厨师”。一项紧贴真实场景的研究给了强有力的侧证：并非让模型直接重做去雨，而是在现有去雨模型之后，增加一个“智能体”来诊断残余问题、规划工具顺序并空间自适应地调节强度。结果是在真实雨景数据上，峰值信噪比能稳定提升约0.8–1.2 dB，感知质量显著改善，而额外计算只增加约3–5%。更重要的是，增强后的图像让下游检测与分割更少漏检，说明这种“会诊+调度”的范式把画面真地“救活”了。这位“智能体总导演”做对了一件关键事：把问题拆成两个环节。先选“怎么做”（工具路径与顺序），再定“做多重”（空间强度图），执行时以强度图对每一步产生的残差进行像素级加权，既稳又灵活。这样的程序化治理，天然适合让大语言模型来参与决策：当工具箱变大、目标多样、用户意图复杂时，LLM能把模糊的语言目标翻译成可执行的序列，把“先把噪点压一压，再把人脸边缘拉清，再把天空色温暖一点”变成明确的操作图谱。让大语言模型指挥，还能带来三类加分。其一是规模化搜索的智慧化收敛：工具链一多、组合空间爆炸，LLM擅长把启发式与常识注入“先验”，减少盲试错成本。其二是意图对齐：低层修复经常“多解”，LLM能把“好看”“真实”“保细节”这类语义诉求映射为目标函数与约束，让结果不只是高分，还更合人意。其三是跨任务泛化：今天是去雨，明天可能是低光增强、去雾、老片修复，LLM的指挥语义可迁移，底层工具库则按需替换。当然，别神化总导演。LLM若越权下场直接“改像素”，常会幻觉、用力过猛或风格跑偏；它的推理也会带来额外时延。正确的工程做法是给它护栏和搭档：把它限定在“可选工具与参数范围”内决策；让视觉骨干网络来产出空间强度与掩模；用无参考图像质量指标与任务侧指标做闭环自检与反馈；必要时支持回滚重排。如此一来，语言的灵活，变成可验证的行动；审美与物理，还能兼顾。如果把这件事落成一条流水线，你可以这样想象流程的节奏。相机出图后，先用强力去雨器打底；LLM读入图像与用户意图，输出一段“程序脚本”——工具顺序与目标侧重；视觉子网为每步生成对应的强度图与区域掩模；执行端按“残差缩放”方式逐步细化；质量评估器对每一步给出得分，若退化未被抑制或细节被过抹，触发回滚与重排。整套下来，既像医生会诊，又像工厂质控。哪些场景收益最大？一是退化耦合、一步到位难的真实世界，比如雨+噪+色偏的行车影像；二是“技术+审美”并重的内容生产，用户能用一句话定调，系统用多步链路去落地；三是跨域部署，统一的“语言指挥”换不同的工具库，就能复用策略而不必重训底模。所以，让大语言模型来指挥，修图确实有机会更好，但关键是角色放对：它应像一位善用常识与意图的总导演，给出路径与边界；把像素级的落刀，留给擅长执行的专业工。真正的智能，并不在于谁更大声，而在于如何把“听懂人话”的能力，转化为“做对每一步”的秩序。下一次你说“让它更清、更真、更有质感”，或许后台早已是一场有条不紊的多智能体协作——看、想、做、复查，再做。技术的进步，终归是让工具更懂我们，也更尊重画面本身的真实与美。

未来的P图软件，会变成AI工具箱吗？

想象一下，修图不再是挨个点滤镜、拉滑块，而是像把照片交给一位全科“图像医生”：先诊断哪里噪点重、哪里边缘糊、哪里色偏怪，再自动开方、定剂量、分区域精修。你只说诉求，它自己调度最合适的工具，还会控制每个像素下手多重。这不是科幻，它正在变成现实。去雨论文里的Derain-Agent给了一个非常清晰的路标：别推倒重来，做一个“即插即用”的调度大脑，站在现有强力模型背后当指挥。它会从候选的工具序列里选最合适的一条路径，再为每个工具生成一张空间强度图，用残差缩放这种稳健的执行方式，把效果按像素精确地“加回来”。两阶段训练避开离散选择与连续回归的冲突，落地后只增加约3.5%的计算量，却在真实数据上带来稳定的画质跃迁，甚至还能提升下游检测与分割。这种“路径+强度”的范式，本质就是一个可扩展的AI工具箱调度器。产业侧的风向更是同频共振。主流创意工具已经从“单体特效”转向“能力编排”：生成填充可切换第三方模型，智能选片、对象蒙版、批量自动化进入标准工作流；移动端与边缘设备上，支持自然语言指令与参考图的设备端编辑模型崛起，带来低时延与隐私友好；本土与国际团队纷纷推出通用编辑模型，语义感知修补、长链路多轮编辑、中文复杂指令理解已被产品化。市场数据也在“铺路”：终端AI渗透率快速上升，服务器与工具市场稳定扩张，这意味着“多工具协同+本地推理”的算力与生态条件正在成熟。更关键的是用户体验的重构。新一代工作流不再是线性对话或逐步点选，而是“无限画布+多Agent并行”的创作现场：一边批量生成商品图，一边自动写文案；一边抠图分割，一边做风格统一；背后由智能体完成劣化识别、工具顺序规划、区域掩膜与力度图生成，质量评估指标在环路里当“质检”，把结果稳住。这与Derain-Agent的理念是同源的——先懂图，再调度，最后精细施作。当然，做成真正的“AI工具箱”，还有几道硬仗。工具库越大，组合空间越爆炸，如何像Derain-Agent那样以学习化调度替代在线试错，是效率与稳定性的分水岭；跨场景泛化要靠更丰富的工具与更强的诊断，必要时用大模型先验去约束策略；生态层面需要标准化的插件接口、可审计的编辑轨迹与内容可信标记，让自动化既可控又可追溯；工程上还要在云—端之间做好的算力切分，既保证实时性，也照顾隐私与成本。所以，未来的P图软件，会不会变成AI工具箱？答案更精确些：它会进化为“可编排的AI工具箱”，外表是一个自然语言和画布驱动的创意界面，内核是一位能诊断、能规划、能量化执行的智能调度员，按需调用去噪、去模糊、调色、分割、生成、超分等专长模块，并以像素级强度图与质量评估闭环把握度量与风险。当修图从“我来调工具”变成“我说意图、它来排兵布阵”，创作者将从滑块操作员回到艺术与叙事的导演。技术会让图像在“记录与重构”的张力之间更自由，但也更需要我们回答一个古老的问题：当工具几乎无所不能，什么才是你真正想表达的那一笔？

反向操作，能造出电影级的逼真雨景吗？

把一张晴天照“按下暴雨开关”，街灯拉出长长的光晕、路面闪着冷湿的反光、镜头前水滴折射出破碎霓虹——这不是魔法，而是可工程化的电影级雨景合成。答案是肯定的：反向操作不仅能造出逼真的雨，还能可控地“定级别、定风向、定质感”。要像电影那样真，关键不在“加一层雨”，而在重建雨与相机、场景的全链路耦合。可把雨分成五个层面叠加：远处体积雾化与“雨幕”，中景雨条纹的运动模糊与风致弯曲，近景大颗粒与景深虚化，镜头表面的水珠折射/散焦，以及地面湿润后的暗化、镜面高光、溅射与涟漪。与此同时，让相机学会“下雨”：调整快门决定雨线长度（例如1/30–1/60秒更易拉出可见条纹），景深与滚动快门塑造运动形态，ISO与胶片/传感器颗粒匹配画面噪声与光晕。这正可借鉴去雨研究的“智能体”思路做反向：用一个“Rain-Agent”先做场景体检（深度、材质、光源、相机参数），再规划添加顺序与强度图。先湿场景、后加雾，再叠雨条纹，最后加镜头水珠与整体调色，并对每一步给出空间强度图：天空处雾更重、柏油路更湿、背光边缘更亮。执行时用残差式叠加，按像素缩放改变量，避免过度处理，得到稳定且细腻的合成。实现路径有两条同样重要。传统VFX管线用Houdini/Unreal的粒子与体积雾模拟雨粒分布与溅射，Nuke/AE与Boris FX合成多通道雨层，匹配片源颗粒与色彩空间；这种方式物理可控、可审美把关。神经生成管线则以视频扩散模型为核，辅以深度、光流与法线作为条件，学习真实雨的视频统计，确保时间一致性与遮挡关系；再用判别器或无参考画质指标做“写实打分”，回看迭代到更真。能否“骗过”人眼，取决于几件细节是否到位：雨强与掉落速度要与风向、镜头快门相容；雨与物体必须有遮挡关系而非“穿模”；地面要变湿、反射环境色；夜景背光下雨线要更亮；时间上不能抖动“闪雨”，需用光流稳定随机种子。反之，均匀一层雨贴图、无湿痕无雾化、无景深分层，是最容易露馅的。给到一套可落地的小配方：先用单目深度与法线估计出几何与材质分区，生成“湿度/粗糙度”贴图以暗化漫反射、增强镜面；依据期望降雨量采样滴径分布与风矢量，按快门推算条纹长度并做各深度层景深卷积；渲染体积雾与高光泛光；在镜头平面单独渲染水珠折射与哈雷效应；最后做整体色温降低、对比减弱与高ISO颗粒匹配，并用检测/分割模型回测可见度，校正过度雾化与对比损失。电影级逼真并不等于复杂到难以掌控，它等于对“物理+摄影+审美”的连贯尊重。当你能让雨不只“落在画面上”，而是“落进世界里”，它就会变得可信。创造天气，其实是在创造情绪：技术给你按键，叙事决定力度。下一场雨，想让观众感到寒冷、压抑，还是温柔？把参数交给故事，你的雨就会活过来。

P得太干净的照片，会不会反而不自然？

把一张雨夜街头照修得一尘不染，像刚出厂的样机图，为什么总有点别扭？因为我们的眼睛并不生活在无菌室里。人类视觉系统习惯了轻微的噪点、细腻的纹理、雨幕带来的微雾与冷色光影，这些“瑕疵”正是场景质感与氛围的线索。把它们全部抹平，照片就像蜡像：干净，却失去生命力。会不会不自然？会，而且常见。过度“清洁”最典型的代价是纹理被抹掉，高频细节减少，微对比被压扁——脸变塑料、叶子像水彩、砖缝发糊。更糟的是，强力去噪+锐化容易引入光晕、振铃、分层断档和怪异的色偏。客观指标上，PSNR/SSIM可能升了，但主观感受反而下降；这正是为什么许多研究开始同时关注无参考感知指标，如NIQE、BRISQUE，它们更贴近“看起来自然不自然”。现实世界也在提醒我们“别修太狠”。低照度下本就该有些噪点与柔和的运动模糊；雨天原生的冷色偏、镜面反射、轻微雾效，是气氛的一部分。把这些全部擦掉，观者的心理预期被打破，产生“不可信”的落差。很多静态推理的去雨模型在真实场景里就会走向两极：要么清到发糊，要么色彩发假。怎么办？让“清洁”更聪明。最新的Derain-Agent思路很有启发：不推倒重来，而是在去雨模型之后加一位“全科医生”。它先诊断画面哪里还留有噪点、模糊或色偏，再从降噪、去模糊、调色等工具里规划顺序，并用一张像素级“强度图”控制每个位置该下多大药。执行时采用残差缩放，把工具带来的改变量按强度图柔和地加回原图，让天空更干净、眉梢更锐利、肌理不过度。一言以蔽之：不一刀切，按需微调。实验显示，在真实雨景数据集上，它不仅提升PSNR/SSIM，还显著降低NIQE/BRISQUE，说明“看起来更自然”这件事被量化地实现了，同时额外计算开销仅约百分之几。把这种理念落到你的修图工作流，也有几条实用准则。优先做空间自适应的处理：平坦区域更强去噪、细节纹理轻手下刀；针对色噪与亮度噪分开治理，常常“重色轻亮”更自然。锐化要用边缘感知的多尺度方式，避免在大边界附近制造光晕。若不得不强力去噪，给图像加回一层细腻、一致的微颗粒，能迅速挽回“真实感”。色彩上保留环境光的记忆，别把雨天的冷意全部抹成中性灰。评估时，一定同时在100%与适屏比例来回看，并观察暗部是否被过度抬黑或夹杂带状伪影——这些都是“不自然”的早期信号。还有一个被忽视的标尺：与拍摄条件的一致性。高ISO场景完全无噪、多雨夜完全无雾、剧烈运动完全无拖尾，往往比轻度瑕疵更假。自然感不是绝对的干净，而是与情境匹配的“可信不完美”。当我们讨论“P得太干净会不会不自然”，本质是在谈图像的真实与审美如何和解。技术的角色不该是把世界抛光到无菌，而是让信息清晰、让氛围存续、让故事可读。Derain-Agent这类自适应方法，正在把修图从粗暴的“清除”带向温和的“调理”。留一点雨、留一点气，照片才有呼吸。愿你的每次修图，都像医生的处方：对症、适量、以生命力为目标，而非数字上的完美。

除了P图，它能帮医生看清CT影像吗？

把相机镜头上的雨滴擦干净，世界会立刻变清楚；让AI学会“先诊断、再下药”，医学影像也可能迎来同样的清晰。Derain-Agent做的并不是花里胡哨的P图，而是把静态的一刀切处理，变成对每一张图、每一个区域都能因地制宜的“手术方案”。这种“智能体+工具箱+强度地图”的范式，恰恰击中了医学影像增强里最难的点：既要降噪去伪影，又不能动摇定量指标与微小病灶的真实纹理。直接回答你：能，但需要“换刀具、守规矩、过临床”。眼前这套Derain-Agent是为雨天自然图像定制的，如果把它的“外科团队”替换为医学影像专用工具，并加上医学物理与监管要求，它就有望成为医生的清晰助手。为什么可行？因为医学影像和雨天照片面对的是同一种“耦合退化”：噪声、运动模糊、条纹伪影、对比度不稳常常缠在一起。静态模型会把所有片子同样处理，于是要么过度平滑，要么细节受损。Derain-Agent的关键在两点：一是会“排班”——为每例影像挑出最合适的处理序列；二是会“定剂量”——用像素/体素级强度图，在哪儿该多一点、哪儿该少一点，算得明明白白。这与临床实际非常契合：金属植入附近要更谨慎、血管边界要少抹、低剂量腹部CT要重点抑噪而保纹理。把它移植到CT，要做哪些“换刀”和“守规”？工具箱需要医学化：低剂量去噪网络、金属伪影抑制、条纹/环伪影校正、呼吸/心动运动补偿、分辨率增强与对比度标准化等，最好兼顾图像域与投影域，还要遵守HU值保真、密度单调性与边缘不扩散等硬约束。强度图应从2D扩展到3D或2.5D，考虑各向异性体素；在病灶边界处自动“刹车”，在均匀实质区放宽抑噪。评估也必须医学化：除了PSNR、SSIM，还要用系统传递函数、噪声功率谱、HU线性、任务型可探测度，以及放射科医师的读片研究，确保“更清”不以“失真”为代价。有没有现实佐证？虽然Derain-Agent本身尚未在CT上做临床验证，但同一思路在医疗领域已有旁证：面向PET/CT/MRI的一体化“万能修复师”系统展示了多任务、自适应权重与损失平衡的有效性，在低剂量PET合成、CT去噪、MRI超分中取得了领先的PSNR表现，说明“按任务自适应”的范式在医学成像可落地。临床生态中，也已有成熟平台支持实时影像分析与推理，证明把一个轻量智能体插入现有工作流是可行的。而用于生成合成CT的基础模型进一步补上了数据与标注的短板，为训练“排班+定剂量”智能体提供了丰富可控的训练料。收益会体现在哪里？夜班急诊的低剂量胸部CT，噪声被抑制而小结节边缘更锐利；术后带金属的骨科CT，条纹伪影减轻而周围软组织不被抹平；重症患者因呼吸不稳带来的轻度运动模糊，被温和校正而不改变HU定量。更重要的是，智能体会把自己的“处方单”和“剂量图”记录在案，便于医生追溯与质控。也要诚实地说出边界：医学影像不是修图，任何“增强”都不能凭主观美感行事。没有物理约束与临床验证的自由发挥，可能掩盖细微病灶或制造假影。真正落地时，建议加入不伤害守则：不确定就少动、关键结构边界自动降强、超出分布自动回退到原图；并以体模标定与多中心读片试验为准绳，通过监管合规的门槛。从擦净雨痕到澄清“体内风景”，关键不在于多会P图，而在于是否懂得尊重每一例个体、每一处组织的差异。当影像AI从静态走向“会看、会想、会克制”的动态智能体，我们离“更清、更准、更可信”的医疗，也就更近了一步。最终，清晰不仅是一张图的命运，更是对每一次诊断选择的敬畏与责任。

AI医生遇到未知杂讯，会死机吗？

想象一位忙到飞起的“AI全科医生”，夜里接连收治从暴雨里捞回来的影像病人：有的满脸噪点，有的被风一吹就糊成影，颜色还像打翻了冷色调滤镜。你或许会担心——碰上没见过的“未知杂讯”，它会不会当场死机？答案比“会或不会”更有趣：真正成熟的AI系统很少硬件崩溃，但更常见的是“认不准、治不对、信心不足”。关键在于，它是否具备自我诊断与自适应的能力。传统去雨模型的问题在于“静态推理”：不管来的是小雨、暴雨，还是“雨+噪声+模糊+色偏”的组合拳，统统一刀切地做同一套处理。结果就是雨线没了，细节也跟着被抹平，颜色发怪，噪点反弹。这并非算法“笨”，而是它被训练在相对干净、可控的合成世界，到了真实场景就容易“水土不服”。医疗AI里也有类似教训：当影像分布、设备条件与训练期差距过大，模型更可能报错、漏检；而真正让电脑“卡死”的，多半是工程资源不足——硬件老旧、显存爆、I/O阻塞，而不是算法遇到陌生噪声就崩溃。这正是引入“智能体式”思路的意义。Derain-Agent把去雨从“流水线”变成“会诊室”：先看病（感知）、再开方（规划）、最后定量下药（执行）。它在任何你喜欢的基础去雨器后面，叠一层轻量“增强医生”： - 工具调度器像总住院医，按图像症状从候选路径里择优安排“疗程”（如先降噪再去模糊后校色），绕开昂贵的在线试错。 - 强度调制器像用药护士，为路径里的每个工具生成一张像素级“剂量图”，哪里噪点重就多一点，纹理脆弱就轻一点。 - 执行靠“残差缩放”：只把“处理后与当前图的差异”按剂量加回，避免过度治疗。这套“动态处方+空间定量”，在真实雨天数据上对多种SOTA基础模型都带来稳定提升，客观指标更干净，主观观感更自然，下游检测/分割也更少漏检。更妙的是，代价很低，计算量只涨了几个点。这意味着遇到“新花样”的杂讯，它不靠蛮力硬怼，而是先判断“该不该治、治到哪儿、下多大药”，尽可能把风险控制在可解释、可回撤的轨道上。当然，未知不等于无敌。智能体的上限受“工具箱”所限：如果来的是工具箱从未覆盖的怪异退化，它不会死机，但可能“治不对”或“治不够”。离线穷举生成最优路径在工具极多时也会吃力，这时候需要更聪明的先验与搜索。面对真正的分布外样本，一个靠谱系统应该“优雅降级”： - 让模型学会“不确定就少动”，用置信度或无参考质量指标做闸门； - 预置安全回退：直接输出基础结果、只启用低风险工具、减少剂量； - 扩充与更新工具箱，引入去噪、去模糊、色彩、压缩伪影等更丰富模块； - 用测试时自适应或自监督信号微调细节，在无干净标签下也能稳步改良； - 工程侧设资源守护与看门狗，限时、限内存、分批处理，避免真的“卡死”。所以，AI医生遇到未知杂讯，通常不会物理意义上死机；更可能的是理性地表达“不确定”、谨慎地下手，或干脆上报请人类会诊。Derain-Agent式的“诊断-规划-定量”范式，把“认错路猛踩油门”的风险，变成“看清路况再稳扎稳打”的弹性。耐人寻味的是，智能并非从不犯错，而是知道该在何处收手、何时求助、如何快速学习。当我们给AI的不只是更大的网络、更多的数据，而是赋予它面向未知的决策与自控能力，它就从“工具”进化为“同事”。而真正的进步，也许不在于把所有噪声都一击必杀，而在于在人与机器的协作里，让每一次不确定都成为下一次确定的踏板。

新知 - 大圆镜｜给去雨模型加个AI医生，告别一刀切修复

对抗知识焦虑，从看懂这条开始

App 下载

从“一刀切”到“看单抓药”的AI医生

你可以把传统去雨模型想象成只会开一种药方的庸医：不管病人是感冒发烧还是肠胃不适，全塞同一种药。而Derain-Agent就是那个能精准问诊的全科医生——它不替换原来的去雨模型，而是等“庸医”开完药（完成初步去雨）后，接手做“术后调理”。

它的工作流程分三步：先“诊断”，用ResNet34特征提取器扫描初步去雨后的图片，找出残留的问题——是天空的噪点，还是建筑边缘的模糊，或是整体的色彩偏差；再“开药方”，从预存的工具库（降噪的SCUNet、去模糊的Restormer、调色的WB LUTs）里，选出最优的工具使用顺序，比如先降噪再锐化最后调色；最后“精准施药”，给每个工具生成一张和图片一样大的“强度图”，像素值从0到1，比如天空噪点多的地方降噪强度拉满到1，人物面部细节处锐化强度调到0.3，避免磨掉皮肤纹理。

这个过程里最关键的是“空间强度调制”机制——它不是直接用工具处理后的图片替换原图，而是计算原图和处理后图片的差异，再用强度图给差异做像素级加权，最后加回原图。就像给脸上长痘的地方涂浓一点的药膏，没痘的地方只抹一层轻薄的乳液，既解决问题又不破坏原本的好皮肤。

两阶段训练：先学开药方再学控药量

要让这个AI医生真的会看病，团队用了一套聪明的两阶段训练法——先解决“开什么药方”的问题，再解决“用多少药量”的问题。

第一阶段，训练工具调度器：给模型喂大量初步去雨后的图片，以及对应的最优工具序列（这些序列是提前通过穷举搜索得到的“标准答案”），用交叉熵损失让模型学会“看照片选药方”。这一步就像让医学生背熟各种病症对应的用药方案，先建立起基本的诊断逻辑。

第二阶段，训练强度调制器：把第一阶段学好的调度器和特征提取器“冻结”，只让模型学怎么根据药方配药量。用L1损失和结构相似性损失来监督，让模型学会给不同区域分配不同的工具强度。这一步相当于让已经会开药方的医生，再学怎么根据病人的体重、病情轻重调整药量，做到精准治疗。

这种分阶段训练的好处很明显：避免了离散的路径选择和连续的强度预测互相干扰，模型学起来更快更稳。测试数据也证明了这一点——在真实雨天数据集LHP-Rain上，给不同的基础去雨模型配上Derain-Agent后，峰值信噪比平均提升了0.81到1.19dB，相当于把模糊的照片拉清晰了一个档次，而且计算量只增加了3.5%，几乎不影响处理速度。

不止修图，更给下游任务“开天眼”

Derain-Agent的价值不止于让照片更好看——它还能给依赖清晰图像的下游任务“开天眼”。比如在自动驾驶的雨天场景里，基础去雨模型处理后的图片可能还残留着模糊和噪点，导致YOLOv8目标检测模型漏检行人和路标。但经过Derain-Agent增强后的图片，物体边界更清晰，噪点被彻底清除，YOLOv8的漏检率明显降低，分割出的物体掩码也更精准。

当然，它也有自己的局限：比如工具库的丰富度直接决定了它的能力边界，如果遇到没见过的复杂退化，比如雨加雪加雾的极端天气，现有的三个工具可能就不够用；而且离线穷举最优路径的方法，在工具库扩大后会面临路径爆炸的问题，得找更高效的搜索策略。但这些问题都挡不住它的创新意义——它第一次把智能体的“诊断-规划-执行”逻辑引入低层视觉任务，给所有“一刀切”的图像修复模型指了条明路：与其重新造一个完美的模型，不如给现有的模型加个聪明的“辅助医生”。

从只会“一刀切”的固定流程，到能“看单抓药”的智能调理，Derain-Agent的出现，其实是AI视觉领域一个更宏大趋势的缩影：我们不再追求用一个超级模型解决所有问题，而是开始用模块化的智能体，让不同的模型各司其职，协同完成复杂任务。

这就像一个医院的团队：专科医生负责解决核心病症，全科医生负责术后调理，护士负责精准给药——每个环节都专业，最终的效果自然比一个全能医生单打独斗好得多。好的AI，不是无所不能，而是懂得协同。 未来的图像修复，甚至整个AI视觉领域，都会朝着这个方向走：用更细分的智能体，搭起更灵活的协作网络，让AI真正学会“理解”复杂的真实世界。

从“一刀切”到“看单抓药”的AI医生

两阶段训练：先学开药方再学控药量

不止修图，更给下游任务“开天眼”

评论