
4 个月前
在人工智能学术界的顶级殿堂NeurIPS 2025,聚光灯下,一个十年之约尘埃落定。由任少卿、何恺明、Ross Girshick和孙剑合著的经典论文《Faster R-CNN》,摘得了分量极重的“时间检验奖”(Test of Time Award)。
这不仅是对一篇论文的致敬,更是对一个时代的加冕。自2015年问世以来,Faster R-CNN如同一座灯塔,不仅彻底重塑了现代目标检测技术的核心范式,更深刻地指引了此后十年计算机视觉的发展航向。作为这一历史性时刻的总结,何恺明发表了题为《视觉目标检测简史》的演讲,为我们徐徐展开了一部机器如何从“失明”到“看见”世界的英雄史诗。
为什么今天的AI能在一瞬间框出照片里的猫、狗、汽车,而在十几年前这几乎是天方夜谭?让我们跟随这场演讲的视角,穿越回那个“原始”年代,一探究竟。
在深度学习的浪潮席卷之前,计算机视觉科学家们更像是精雕细琢的工匠。他们试图教会机器“看见”的方式,是为机器设计一副副手工打磨的“放大镜”——特征描述符。
这个时代的探索充满了智慧的闪光:

然而,“工匠时代”的瓶颈也显而易见。所有特征都依赖于人类的先验知识和繁琐设计(Hand-crafted)。这种方法不仅开发周期长,而且泛化能力差,面对真实世界无穷无尽的变化时,这些精巧的“放大镜”便会失灵。机器的视觉,被人类的想象力牢牢禁锢。
2012年,一道惊雷划破了计算机视觉的天空。AlexNet,一个深层的卷积神经网络(CNN),在ImageNet图像分类竞赛中以碾压性优势夺冠。它用无可辩驳的结果证明:机器可以通过学习海量数据,自动提取出远比人类手工设计更有效的特征。
一个全新的时代开启了。但问题随之而来:分类是判断“是什么”,而检测需要回答“在哪里”。如何将CNN强大的特征提取能力用于定位物体?
2014年,Ross Girshick等人给出了开创性的答案——R-CNN。它的思路简单粗暴却有效:
R-CNN成功地将深度学习引入了目标检测,精度实现了巨大飞跃。但它的“暴力”也带来了巨大的计算成本,检测一张图片需要数十秒。随后,SPP-Net和Fast R-CNN通过共享计算(即对整张图只进行一次卷积特征提取),极大地提升了速度,将时间缩短到秒级。
然而,那个最初的步骤——候选区域生成,依然依赖于缓慢的传统算法,成为了整个系统的速度瓶颈。通往实时、端到端检测的道路,还缺少最后一块拼图。
2015年,何恺明团队的Faster R-CNN横空出世,它带来的革命性创新——区域提议网络(Region Proposal Network, RPN),彻底解决了最后的瓶颈。
RPN的灵感,甚至可以追溯到1991年LeCun的早期工作。其核心思想是:为什么不能让神经网络自己来学习如何产生候选框呢?
RPN被巧妙地设计成一个小型全卷积网络,它与主干检测网络共享底层的卷积特征。它在特征图上滑动,并参考一系列预设的、不同尺寸和长宽比的“锚点”(Anchors),直接预测出哪些区域最有可能是物体,并给出初步的位置修正。
这是一个石破天惊的创举。至此,目标检测的所有关键环节——特征提取、区域提议、分类、位置回归——全部被整合进一个统一的、可端到端训练的深度学习框架中。计算机视觉第一次实现了真正意义上的高精度实时检测。Faster R-CNN不仅是一个算法,它更是一种哲学:当系统的某个组件成为瓶颈时,就用一个更强大的、可学习的神经网络去替代它。
Faster R-CNN开启了目标检测的黄金十年,但探索的脚步从未停歇。既然两阶段(先提议后检测)已经做到极致,那么能不能更进一步,连“提议”这个动作都省去?

单阶段检测的崛起:2016年,YOLO(You Only Look Once)和SSD横空出世。它们像人类一样,只“看”一眼图像,就直接在预设的网格上回归出所有物体的位置和类别。这种“一步到位”的思路带来了极致的速度,但也一度面临精度不及两阶段方法的困扰。为此,何恺明团队在2017年提出的Focal Loss,通过巧妙的损失函数设计,解决了单阶段检测中正负样本极度不平衡的难题,让单阶段模型的精度也达到了顶级水准。
从检测到分割:同样在2017年,惊艳的Mask R-CNN问世。它在Faster R-CNN的基础上,优雅地增加了一个小小的分支,不仅能画出物体的边界框,还能实现像素级的实例分割,即把每个物体精确地“抠”出来。

从DETR到后来分割一切的SAM(Segment Anything Model),视觉大模型的雏形已经显现。机器“看见”世界的方式,正从局部推理,迈向全局理解。
三十年的演进,是从工匠用经验打磨规则,到机器用数据学习特征,再到如今构建拥有全局视野的统一模型的宏大叙事。这条路深刻地影响了现实世界:从自动驾驶的车辆避让,到医疗影像的肿瘤识别;从智慧零售的无人结算,到农业领域的病虫害监测,机器视觉正以前所未有的深度和广度变革着各行各业。
然而,技术的前沿永远笼罩在迷雾之中。正如演讲最后那张寓意深远的图片所示:一艘船,正驶向迷雾笼罩的大海。何恺明说:“科学探索就像驶入迷雾,这里没有预先画好的地图,我们甚至不知道终点是否存在。”
Faster R-CNN是这趟伟大航程中的一座关键灯塔,它不仅照亮了过去十年的路,更激励着后来者继续向着未知的海域勇敢前行。下一个十年,计算机视觉的“圣杯”会是什么?无人知晓,但这正是科学最迷人的地方。
点击充电,成为大圆镜下一个视频选题!