AI学会举一反三，是在模仿人脑吗？

既像又不像。如今“举一反三”的很多做法是在借鉴人脑的原则，而非生物学复刻。比如用双曲几何学出“语义家族树”，功能上接近人类用上位概念处理陌生物，但实现是度量学习与结构先验；大模型的“思维链”像自言自语，却主要靠搜索与任务分解的归纳偏置，并非前额叶工作记忆的同构复制。更“像脑”的路线在类脑与神经形态：脉冲神经网络、事件相机与类脑芯片以稀疏激活、事件驱动、在线学习换来能效优势（人脑约20W，神经形态系统已在突触吞吐和能效上逼近皮层级别），但在通用推理与跨任务迁移仍弱于主流大模型。更现实的答案是混血路径：在大模型里注入层级、稀疏、记忆等“脑式”先验，在硬件上拥抱神经形态，让AI既会“类人推理”，又算得更省。

自动驾驶能看懂路边的抽象雕塑吗？

能“看见并正确对待”，但谈不上“看懂”。自动驾驶不会理解雕塑的含义，它做的是两件事：一是把它感知为一个占据空间的物体，二是判断它对行驶是否相关。感知堆栈会用相机的分割/检测、激光雷达的占据与形状、雷达的回波稳定性，以及路缘/可行驶区域分割和高精地图的路侧带约束，去判断“它是不是在车道里、会不会影响轨迹”。在车道外的路边雕塑通常被标记为静态、路外、可忽略；一旦有雕塑或装置侵入可行驶区，系统会把它当障碍减速或绕行，不需要知道它是不是艺术品。难点在于“抽象”和“材质”带来的错觉：人形装置、镜面不锈钢、大体积阴影可能被相机误判；激光多径与强反射会在点云里制造“幽灵”，雷达也会被镜面干扰。工程上靠时序一致性与轨迹级过滤（看它在多帧是否稳定、是否有真实深度/体素占据）、多模态互证（相机分割×激光占据×雷达多普勒），再叠加路侧白名单（地图登记的固定构筑物）来压虚警。像Hyp2Former这类开放集全景方法的价值在于：即便模型没见过这种造型，也能把它归入“物体子树”的未知实例而不是把整片路面当异常，从而减少“把地面/阴影当障碍”的误报；若雕塑具有人形外观，层级嵌入会靠近“生物/人形”祖先锚点，系统倾向保守处理，但下游会用“无微动”“轨迹不交会”把它从行人队列中剔除。现实预期是：在高速和规范城市道路上，成熟系统对路边雕塑通常稳定无感或仅作旁观；对新装未入库、造型夸张且侵入车道的装置，会被当作障碍礼让。开放集分割能显著降低分布外纹理导致的误刹，但在雨夜眩光、镜面装置密集等场景仍可能触发谨慎减速，这是安全冗余的设计取舍。

AI的“家谱”里，能装下外星人吗？

能，也不能。Hyp2Former把已知类嵌进一棵双曲“家谱”，根节点是“物体/thing”。只要“外星人”在传感器里呈现出清晰的物体性——封闭边界、与背景的外观/深度断裂，且在双曲空间里更靠近“物体/生物”等祖先锚点——它就会被当作未知实例抠出来；形态再陌生，也会落在根锚点附近，被标记为“未知但有效”的可避障目标。可家谱不是无边界。若目标物体性很弱（半透明气团、极暗、强反光）、尺度离谱，或其语义超出既有子树（层级先验缺席），嵌入可能与所有锚点都远：轻则把大片路面当“未知”误报，重则直接漏成背景。想把“外星人”稳稳装进来，家谱得会长大：用视觉-语言先验扩张根/中层概念（开放词汇锚点），对高新颖度簇在线生成新锚点（超曲K-means/测地线原型），配合EVT或证据不确定性校准“远离所有锚点”的拒识阈值，并融合时序运动与多模态几何（光流/深度/激光）强化物体性。名字未知没关系，先可靠地判“这是个新东西”，再给它在家谱里腾个位置。

新知 - 大圆镜｜自动驾驶认不出新物体？双曲空间给了新思路

对抗知识焦虑，从看懂这条开始

App 下载

为什么欧氏空间装不下“物体家族树”？

你可以把AI的识别系统想象成一个文件柜：传统方法是把每个物体类别当成独立的文件夹，“猫”“狗”“汽车”各占一格，遇到没见过的“充气沙发”，系统根本找不到对应的格子，要么扔去垃圾桶，要么硬塞进某个看起来像的文件夹。

但真实世界的物体是有层级的：“充气沙发”属于“家具”，“家具”属于“物体”，“物体”和“背景”是完全不同的分支。这种树状结构的节点数量是指数级增长的——“物体”下有10个大类，每个大类下又有10个小类，就会有100个小类。

我们熟悉的欧氏空间是“平坦”的，它的体积随半径多项式增长，就像一张A4纸，画一棵10层的树，越到后面枝干越挤，最后只能扭曲重叠。而双曲空间是负曲率的，像一个无限张开的喇叭，体积随半径指数增长，刚好能把指数级扩张的“物体家族树”舒舒服服地装进去，每个分支都有足够的空间。

Hyp2Former：让AI用层级推理找未知

Hyp2Former的核心逻辑很简单：先在双曲空间里给已知物体建一棵“家族树”，让AI明白“狗→动物→物体”的层级关系；然后训练AI，遇到新物体时，先判断它属于哪个大分支——是“物体”还是“背景”，再看它靠近哪个大类的锚点，最后确定这是一个需要注意的未知障碍。

具体操作分两步：

双曲空间建锚点：给每个已知类别在双曲空间里设一个可学习的锚点，同时用双曲均值自动计算出它的祖先锚点——比如“狗”的锚点旁边，自动生成“动物”“物体”的锚点。训练时让同类物体的特征靠近自己的锚点和所有祖先锚点，远离无关类别的锚点。

层级挖掘未知：推理时，先筛掉高置信度的已知物体，剩下的低置信度查询，在双曲空间里找最近的锚点：如果这个锚点属于“物体”分支，再结合层级分数和发散分数，选出最可能的未知实例。

这种方法不需要额外的未知物体数据，也不用事后聚类，未知物体直接从层级结构里“长”出来。

从实验室到马路：性能与局限

在Cityscapes、Lost&Found和MS COCO三个数据集上的测试显示，Hyp2Former的表现远超此前的最优模型：在Cityscapes上训练后直接测试真实道路的Lost&Found数据集，未知物体的全景质量（PQ）达到12.15%，比第二名P2F高出0.93个百分点；更关键的是，它在识别未知物体的同时，已知物体的识别性能几乎没下降——从封闭世界到开放世界，PQ仅下降5.29%，而P2F的降幅高达14.15%。

但它也有局限：目前的层级树需要人工预定义，遇到完全超出现有层级的“外星物体”，系统可能失效；推理速度约6.5 FPS，距离自动驾驶需要的30 FPS实时性还有差距；双曲空间的曲率参数需要手动调优，不同数据集的最优参数不同，自动化程度还不够。

从“见过才会认”到“推理就能懂”，Hyp2Former的突破不在于识别了多少种新物体，而在于它给AI装上了“抽象思考”的框架——这和人类认识世界的方式不谋而合：我们不需要见过所有种类的狗，只要知道“狗是动物，动物是活的，活的会动”，就能认出从未见过的品种。

更值得关注的是，双曲空间的应用不止于自动驾驶，在知识图谱、自然语言处理等需要层级推理的领域，它都可能带来效率的飞跃。毕竟，智能的本质从来不是记忆，而是用有限的知识理解无限的世界。

结构化知识，才是智能真正的飞跃。

为什么欧氏空间装不下“物体家族树”？

Hyp2Former：让AI用层级推理找未知

从实验室到马路：性能与局限

评论