AI变聪明，靠的是做减法？

短答是：很多时候，AI确实靠“做减法”变聪明，但前提是有证据地减、在对的层级减。跨领域经验在背书：MobileNetV2用深度可分离卷积，把MACs砍到传统CNN的约1/9，Top-1精度只小幅下滑；Switch Transformer用稀疏MoE让每个token只激活少数专家，训练吞吐提升约2–7倍；LoRA在下游只训练不到1%的参数，常见任务几乎不掉点；RoPE/ALiBi这类无参位置编码让长上下文扩展几乎“零新增参数”。但减法要“聪明减”。做法上，先量化各层价值：看每层FLOPs/时延、特征熵或线性可分性，定位真正贡献大的层；把算子与尺度匹配——高分辨率用卷积聚合局部，低分辨率再上注意力抓全局；能共享或无参的就别学参，比如用RoPE替代重位置卷积；再配结构化稀疏与蒸馏，边减边对齐性能。警惕一刀切：过早砍全局依赖会伤到长程关系与跨域泛化；3D场景中至少保留一次“交接”层，确保几何到语义的顺滑过渡。真正的聪明，不是少，而是少得恰到好处。

AI“旋转”一下，就能看懂3D世界？

“旋转”能帮AI看懂3D，但不是魔法棒。PointROPE把RoPE搬到三维：把通道按x/y/z三等分，各自做相位旋转，把相对位移直接写进注意力的内积里，不用再靠卷积“记住位置”。这让LitePT可以在深层彻底去掉卷积而不丢空间感知，把算力留给语义与全局上下文，于是出现了更快更省却不掉点的结果——参数约降3.6倍、推理提速约2倍、显存减半；在nuScenes上，拿掉PointROPE还会掉约2.6个mIoU。但“旋转一下”并不等于通吃三维世界。PointROPE是对旋转“友好”，却不是严格的SE(3)等变；它依赖体素/网格坐标和固定频率，遇到大幅旋转、尺度变化或极端稀疏密度梯度，鲁棒性仍要靠数据增广与归一化兜底。浅层局部几何依旧更适合卷积，深层少量token再用注意力建模全局，这是当前最划算的分工。实操上：若更改体素大小，建议微调频率基数；室外稀疏LiDAR多做旋转/尺度增广；语义分割用极简解码器最省、实例分割保留混合解码更稳。未来把深层注意力改为全局而非分组，或许会再上一层楼。

AI的“视力”，在模仿我们的大脑吗？

答案是：有相似，但不是“复刻”。多模态脑成像对比显示，大规模自监督视觉Transformer（如用约17亿自然图像训练的DINOv3）在15个皮层区呈现清晰层级对齐：浅层最像V1/V2的低级特征，深层更贴近IT/前额叶的抽象语义；MEG/EEG上也出现“层越深、峰值越晚”的时间轨迹。相似度随模型规模、训练步数和人类中心图像比例上升，且与皮层髓鞘、厚度等生物学指标相关。 LitePT的设计正踩中这条规律：高分辨早期用卷积抓局部几何，像小感受野的初级视觉；深层点数减少后改用注意力聚合长程语义，呼应高级区的大范围整合。它并未按神经元结构堆砌，却在功能分工与效率上与大脑视觉层级“同频”。不过，“相似”不等于“相同”。大脑强递归、脉冲式、超低能耗，而当下模型多为前馈、连续矩阵计算。表征对齐不代表机制等价。把递归回路、事件相机输入与类脑能效纳入主干，或许才是让AI“视力”更像我们的下一跳。

新知 - 大圆镜｜点云AI大瘦身：快2倍还能打

对抗知识焦虑，从看懂这条开始

App 下载

原来AI一直在做无用功

你可以把点云AI的工作想象成拼拼图：一开始要把零散的小色块拼成眼睛、鼻子这些局部细节，后来要把这些局部拼成完整的人脸，理解表情和情绪。过去的模型不管是拼细节还是拼整体，都同时用着两种工具——负责抓局部的「卷积」和负责连全局的「注意力」。

但LitePT团队拆了当前最好的Point Transformer V3模型才发现，这两种工具的使用完全搞反了场景：在拼细节的早期阶段，点的数量多到上百万，注意力机制要逐个计算点之间的关联，不仅慢，还对拼细节毫无帮助，纯纯是浪费算力；到了拼整体的后期，点已经被压缩到几万甚至几千个，卷积的局部视野又不够用，还会凭空堆出大量冗余参数。

团队做了个直白的实验：把早期的注意力模块删掉，模型性能几乎没降，但速度快了一大截；把后期的卷积模块删掉，参数少了2/3，性能反而还升了。原来大家默认的「混合搭配最优」，其实是让AI做了一半的无用功。

给AI做个「分工表」

LitePT的核心逻辑说穿了很简单：让专业的工具干专业的活。

模型被分成了五个层级，前三层只保留卷积模块——就像拼图时先用镊子精准对齐小色块，高效抓牢点云里的边缘、曲率这些局部几何特征，这时候不需要注意力来凑热闹；到了后两层，点已经被压缩到足够少，再切换成注意力模块，像用胶水把拼好的局部零件粘成整体，高效捕捉全局的语义关联，比如把「轮子」「车门」这些特征拼成「汽车」。

但这里有个问题：注意力机制天生没空间感，删掉卷积模块后，AI会忘了点的位置信息。团队于是给它配了个「免费导航」——PointROPE位置编码。

你可以把PointROPE理解成给每个点贴个带坐标的隐形标签：它把点的三维坐标分成x、y、z三个独立通道，用数学旋转的方式给每个通道的特征做标记，不需要训练任何参数，却能让注意力模块精准记住每个点的空间位置。相比之前用卷积做位置编码的方式，这一步直接省掉了67%的参数。

不是妥协，是精准的平衡

LitePT的厉害之处，在于它不是为了轻量化而牺牲性能，而是通过精准分工实现了双赢。在自动驾驶常用的Waymo数据集上，它的目标检测精度和Point Transformer V3持平，但推理速度快了2倍；在室内场景的ScanNet数据集上，它的语义分割精度反超了前辈，参数量却只有对方的1/4。

当然它也不是完美的。比如在极端稀疏的点云场景下，它的鲁棒性不如全注意力模型；如果要处理动态点云的实时动作识别，还得在分层切换的时机上做更精细的调整。但它最大的价值，是给3D感知AI指了一条新的路：与其堆参数、拼算力，不如先搞清楚AI在每个阶段到底需要什么。

就像人类干活时，不会用螺丝刀拧螺丝的同时还握着扳手——工具的价值，从来都不在于多，而在于用对地方。

当我们还在惊叹AI能处理越来越复杂的3D数据时，LitePT的出现提醒我们：AI的进化不止是变得更聪明，也可以是变得更高效。它的分层分工思路，其实暗合了人类认知世界的逻辑——先看细节，再拼整体，最后理解意义。

未来的3D感知AI，或许会像一个训练有素的工匠，手里的每一件工具都用在最该用的地方。用对工具，比用好工具更重要。而这种「精准效率」的思路，或许会成为AI从实验室走向真实世界的关键一步。

原来AI一直在做无用功

给AI做个「分工表」

不是妥协，是精准的平衡

评论