新知 - 大圆镜｜放弃方向扫描，Mamba终于学会好好看图像

Q: AI视觉的尽头是“专家会诊”吗？

不至于把“尽头”押在专家会诊，但“少而精的专家+轻量自适应融合”会成为长期形态。MFil-Mamba给出的信号不是无限堆专家，而是用少量正交视角（边缘/原始/动态）提供互补信息，再让序列模型做长程建模。视觉里的稀疏MoE、路径路由确实能抬精度/算力比，但在检测、分割这类密集预测上常见路由塌陷、负载失衡、域移敏感和显存/带宽瓶颈，工程上并不总“香”。 更像的“尽头”是可控的专家化与可蒸馏的一体化：训练期用小集合的专长分工（空间、频域、尺度或任务子头）拉满互补性，加入负载均衡与一致性正则；推理期按场景做可编译路由、动态算力预算，或整体蒸馏为单路径骨干以满足延迟与能耗。视频、多模态、具身感知这类上下文超长的场景会保留“会诊”，而端侧与工业部署更偏向“专家内化”，把会诊的智慧编译进一个稳定、可维护的主干里。结论：专家会诊是阶段性胜法，不是终局。

Q: AI学会“分心看图”，会比人脑更强吗？

在“分心看图”这件事上，机器的确有可比肩、甚至在特定赛道超越人脑的势头。多滤波并行等机制让模型像一支专家小队同时看同一张图：边缘、纹理、结构各司其职，再由门控与加权融合决策。这种大规模并行与长程依赖建模，已经在工业质检、医学筛查、遥感检索等窄域任务里跑赢人类——更快、更稳、更一致，且能在超高分辨率和超大批量下不疲劳。 但要论“更强的视觉智能”，差距仍在关键维度上。人脑以不到20瓦的能耗，在光照变化、遮挡、噪声与分布漂移下依旧稳健；孩子几次示范便可举一反三，而视觉大模型常靠十亿级样本换来准头。人类还能把所见与常识、因果、目的绑定，临场迁移几乎不掉链子；当前模型在对抗扰动、跨域泛化和可解释性上仍显脆弱。 结论很务实：分心式多视角让AI在“看得准、看得快”的局部能力上持续逼近并局部超越人类；要抵达“看得懂、举一反三、低能耗”的整体优势，还需把并行感知与主动注视、世界模型、因果推断和高效学习接上电路。这一步，才是真正的人机分水岭。

Q: 最强的AI模型，也会“杀鸡用牛刀”？

会，而且还挺常见。把二维图像硬拽成一维去“扫”四遍，就是典型的牛刀乱挥：同一区域被反复处理、空间关系被拉直扭曲，算力花了，信息却变脏。MFil-Mamba用“多滤波器并行”替代多方向扫描，两张Sobel边缘图+一张可学习滤波图+原始图，自适应融合后再给Mamba建模，既不破坏空间结构又少走弯路。结果很扎眼：MFil-Mamba-S在50.5M参数下Top-1达83.8%，压过ConvNeXt-S的83.1%；Tiny版也比Swin-T高出近2个百分点，并在COCO、ADE20K同样占优——说明之前的复杂扫描确实有点用力过猛。 更直白的证据来自“冗余”：视觉token和模块层面常有可剪掉的水分。比如DyVM在Vim-S上砍掉35.2%的FLOPs，只丢1.7%精度；而在遥感分割里，折腾各种扫描方向并不比简单平铺更准。强模型并非处处要上“重炮”，更聪明的路子是先用便宜、结构性的滤波或动态选择把冗余剔干净，把宝贵算力留给真正需要的长程依赖与全局建模——省钱，还更准。

大圆镜

内容由AI生成，思考得你完成

App Store 下载 Android 下载

你有没有试过把一幅山水画撕成细纸条，再一根根捋平了看？过去两年里，火遍语言领域的Mamba模型，在处理图像时就一直在做这件蠢事。为了适配它擅长的一维序列计算，研究者不得不把二维图像按固定方向扫描成长条——要么从左到右，要么从上到下，甚至用螺旋线、希尔伯特曲线。结果就是图像的空间结构被扯得稀碎，同一区域反复计算造成冗余，相邻像素在序列里隔得老远。直到2026年3月，南达科他大学的团队抛出了MFil-Mamba：别撕画了，换个方式看。

四个“观察员”代替单向扫描

你可以把MFil-Mamba的核心思路，理解为给模型配了四个分工明确的“图像观察员”。第一个观察员原封不动看整张图，负责记录原始的颜色和纹理；第二个专盯垂直边缘，比如建筑的立柱、人脸的侧面轮廓；第三个专找水平边界，比如地平线、桌面的边缘；第四个最聪明，会在训练中自己学会关注当前任务最需要的特征——可能是医学影像里的病灶，也可能是遥感图里的农田。

这四个观察员同时开工，各自生成一份特征图，再把这些图堆叠成一份“多视角报告”喂给Mamba。不同于之前被扯成纸条的一维序列，这份报告完整保留了图像的二维空间结构，相邻像素依然紧紧挨在一起。论文用协方差矩阵证明，这种多视角扫描能捕捉到单向扫描永远拿不到的二阶空间依赖关系——简单说就是，模型终于能看懂“眼睛在鼻子上方”这种基础的空间逻辑了。

从分类到分割，全任务性能碾压

想法再好，也要用数据说话。MFil-Mamba在三大核心视觉任务上，把传统视觉Mamba、CNN和Transformer都甩在了身后。

在ImageNet-1K分类任务中，参数量仅33.5M的Tiny版本，Top-1准确率达到83.2%，比同规模的Swin-T高出1.9个百分点，比DeiT-S更是高出3.4个百分点；50.5M的Small版本准确率83.8%，直接超越了ConvNeXt-S。在COCO目标检测任务中，MFil-Mamba-T的框检测AP达到47.3%，掩码AP42.7%，全面领先同规模的ConvNeXt-T、Swin-T和VMamba-T。ADE20K语义分割任务里，它的Tiny变体单尺度mIoU冲到48.5%，比VMamba-T高了1.7个百分点。

消融实验更能说明问题：只用原始特征图时准确率82.4%，加上水平/垂直梯度图后涨到82.9%，再加入动态学习滤波器直接跳到83.2%；如果换成传统的四向十字扫描，准确率立刻掉到82.6%——多滤波器扫描的优势，被数据钉得死死的。

看得见的优势：感受野与注意力可视化

数据之外，我们能直接“看见”MFil-Mamba的厉害。有效感受野（ERF）可视化显示，它的感受野比ConvNeXt、VMamba和Swin都更大、更均匀，完全贴合物体的自然形状——比如识别猫的时候，它的感受野会精准覆盖整只猫，而不是像有些模型那样，只盯着猫的脑袋或者爪子。

Grad-CAM注意力图更直观：识别降落伞时，它的注意力完全集中在伞体上；识别疣猪时，精准锁定猪的头部和身体；识别煤气灶时，不会被旁边的锅碗瓢盆干扰。相比之下，有些基线模型的注意力会分散到背景里，甚至抓错重点。这种精准的注意力，正是它能在分割、检测任务中表现突出的核心原因。

MFil-Mamba的出现，本质上是给视觉Mamba松了绑——不用再为了适配一维计算，硬生生扭曲二维图像的空间结构。它没有在扫描路径上继续内卷，而是换了个思路：既然Mamba擅长处理序列，那我就给它喂一份保留空间结构的“多视角序列”。

当然，它也不是完美的。多滤波器带来了额外的计算开销，在移动端部署还需要进一步优化；动态滤波器的学习逻辑，也需要更深入的理论解释。但不可否认的是，它为视觉状态空间模型开辟了一条全新的路。

好的模型，应该学会适应数据，而不是反过来。 从撕画到多视角观察，MFil-Mamba迈出的这一步，可能会让AI看世界的方式，变得更像人类。

脉络

1992年

Selim S. Hacısalihzade提出将视觉注视序列建模为马尔可夫过程，为后续视觉序列建模提供了理论基础，对视觉信息处理的算法发展具有推动意义。

1995年

Shimon Ullman提出视觉皮层信息双向流的计算模型，阐释了视觉信息在神经系统中的序列处理方式，对后续视觉序列建模和人工智能模型有重要影响。

2009年

Naomi Harte等人将隐马尔可夫模型（HMM）应用于视觉序列事件的识别与建模，为视觉序列事件检测提供了有效工具，推动了序列建模技术与视觉任务结合。

2018年

Christian Klos团队提出初级视觉皮层的序列学习和预测模型，揭示视觉皮层在时空序列处理中的机制，促进了生物启发式视觉序列建模方法的发展。

2023年

Albert Gu等人提出Mamba线性时间序列建模方法，采用选择性状态空间机制，大幅提升长序列建模效率，为后续视觉领域Mamba模型奠定基础。

2024年

Lianghui Zhu等人提出Vision Mamba模型，将Mamba架构引入视觉表示学习，实现高效的视觉表征和双向状态空间建模，显著提升视觉任务性能，推动视觉Mamba模型成为新一代视觉基础架构。

2024年

Zhaohu Xing等人提出SegMamba，基于Mamba实现3D医学图像分割的长程序列建模，显著提升医学影像分割精度，拓展了视觉Mamba模型在医学领域的应用。

2024年

Xianping Ma团队提出RS³ Mamba模型，实现遥感图像的高效语义分割，解决传统方法难以建模长程依赖的问题，推动视觉Mamba在地理信息领域应用。

2024年

Ziyang Wang等人提出Mamba-UNet，融合Mamba架构与UNet，专用于医学图像分割，提升了分割精度和效率，展示了视觉Mamba模型的结构灵活性和应用前景。

2024年

Hanwei Zhang等人发表《A Survey on Visual Mamba》，系统梳理了视觉Mamba模型的原理、结构及应用，成为该领域的重要参考文献，推动学界对视觉Mamba的理解和研究。

2026年

Xiaochan Yuan等人提出多视角可变形卷积与视觉Mamba结合，用于冠状动脉分割，推进了视觉Mamba在复杂医学图像分析中的应用，展示了其强大建模能力。

2026年

Liuyun Jiang团队提出NeuroMamba，多视角特征交互与视觉Mamba结合，有效提升神经元分割精度，为神经科学领域大规模神经元重建提供新工具。

四个“观察员”代替单向扫描

从分类到分割，全任务性能碾压

看得见的优势：感受野与注意力可视化

评论