对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
医学影像|工业质检|缺陷检测|CoPS方法|中科院自动化所|多模态视觉|临床诊疗技术|医学健康|人工智能
当工厂流水线上的螺丝少了个齿,当CT影像里藏着针尖大的病灶,人类质检员需要瞪大眼睛反复确认——但AI此前总在这类任务上掉链子。要么得专家提前写好“找裂纹”“找凸起”的死板指令,要么只能识别见过的缺陷,换个新零件就抓瞎。
现在,来自中科院自动化所等机构的团队解决了这个难题:他们让AI学会了“看菜下饭”——根据每张图片的实际情况,自己生成检测指令。这套名为CoPS的方法,在13个工业和医学数据集上,把缺陷分类准确率提了1.4%,分割精度提了1.9%,还能同时完成“有没有问题”和“问题在哪”两项任务。它是怎么做到的?
过去用CLIP这类视觉语言模型做异常检测,就像给AI发固定菜单:要么是专家手写的“找完美零件”“找受损区域”,要么是模型训练时学的几个固定关键词。但现实里的缺陷哪有这么规整?同样是“异常”,可能是螺丝的裂纹、药片的污渍,也可能是CT片里的阴影、肠镜下的息肉——这些状态是连续变化的,固定指令根本覆盖不全。
CoPS的核心突破,就是把“固定菜单”改成了“现点现做”。它会先提取输入图像的视觉特征,再动态生成对应的检测提示。整个过程靠三个模块协同完成:
**ESTS显式状态令牌合成**是核心——它从图像的局部细节里,提取出“正常”和“异常”的典型视觉原型,比如“光滑的金属表面”“不规则的暗色斑块”,再把这些原型注入到AI的检测指令里。就像给AI配备了一套“缺陷样本库”,看到新图像时能自动匹配最接近的特征。

**ICTS隐式类别令牌采样**解决了“认不出新类别”的问题:用变分自编码器对图像的全局语义建模,生成多样化的类别描述,比如把“螺丝”拓展成“金属紧固件”“工业连接件”,让AI不用死记硬背类别名称,也能理解物体的本质属性。

**SAGA空间感知全局-局部对齐**则负责精准定位:它会根据原型的距离给图像不同区域加权,让AI重点关注和“异常原型”接近的区域,同时结合全局特征判断整幅图是否正常,实现分类和分割的同步优化。

为了验证CoPS的能力,团队在5个工业缺陷数据集和8个医学影像数据集上做了测试——从螺丝、药片的表面缺陷,到脑CT、肠镜的病灶检测,覆盖了几乎所有常见的异常检测场景。
测试结果相当亮眼:在图像级分类上,CoPS的平均AUROC(衡量分类准确率的指标)达到92.5%,比此前最好的方法提升了1.4%;在像素级分割上,平均AUROC达到94.1%,提升了1.9%。更关键的是,它能同时完成“判断是否异常”和“标出异常位置”两项任务,不用像传统方法那样分开训练两个模型。
消融实验的结果更能说明问题:如果去掉ESTS模块,图像级准确率会掉1.2个百分点,像素级掉0.8个百分点——这证明“动态提取异常原型”是CoPS最核心的优势。而去掉ICTS模块,准确率虽然只掉0.4个百分点,但模型对新类别的泛化能力会明显下降,比如学会了检测“螺丝”的缺陷,换“螺母”就容易出错。
从可视化结果看,CoPS的表现也更稳定:在工业零件检测中,它不会把正常的零件边缘误判成缺陷;在医学影像中,它能更完整地覆盖病灶区域,不会漏掉细小的病变。
不过,CoPS也不是完美的。目前它最擅长的是“结构性异常”——也就是那些有明显视觉特征的缺陷,比如表面裂纹、纹理异常、局部病灶。但如果遇到需要语义理解的异常,比如“汽车的方向盘装在了副驾驶”“手术器械摆错了位置”,它就无能为力了。这类异常需要AI理解物体的功能和场景逻辑,而不只是看表面特征。
另外,CoPS的训练和推理速度还有优化空间。虽然它基于预训练的CLIP模型,不用从零开始训练,但动态生成提示的过程还是会增加一些计算量。在工业流水线这种需要实时检测的场景,速度可能会成为瓶颈。
还有一个问题是数据依赖:虽然CoPS是零样本学习,不用针对每个新类别重新训练,但它还是需要一个辅助数据集来学习“正常”和“异常”的原型。如果遇到完全陌生的领域,比如太空探测器的零件缺陷,可能还是需要少量标注数据来微调。
CoPS的出现,本质上是给AI的异常检测装上了“动态眼睛”——它不再是只会执行固定指令的机器,而是能根据实际情况灵活调整的“质检员”。这不仅能降低工业和医疗领域的检测成本,更重要的是,它为AI理解复杂世界提供了新的思路:与其让AI死记硬背规则,不如让它学会从数据中提取规律,自己生成解决问题的方法。
未来,当CoPS结合多模态大语言模型,或许能实现更复杂的异常检测——不仅能看出“哪里不对”,还能说出“为什么不对”。那时,AI才真正能成为人类的可靠助手。
动态提示,让AI学会“看菜下饭”