AI的“强迫症”是天生的吗？

不是“天生”。LLM里看似强迫的“总盯着起始/标点”“动不动就飙激活”，更多是架构与数据的产物：前归一化叠加 SwiGLU 在少数方向上的定向放大，再被 RMSNorm压成近恒定键向量，注意力就形成“黑洞”偏好。把归一化改到残差之后，或让模型在长序列上训练，这些习惯会显著减弱，而困惑度基本不掉。更有意思的是，梯度层面的证据也在说“不天生”：梯度汇聚会诱发巨量激活作为“自稳”副作用；用 V-scale 等值路径门控能留住梯度、却不必制造尖峰。再配合让模型“看见深度”的通道（如 MoDA）或把等权残差换成注意力加权（AttnRes），深层不再空转，“强迫”模式自然收敛。结论很直白：AI的这点“强迫症”多半是后天习得，且可被架构与训练食谱纠偏。

AI大脑里的“噪音”能清除吗？

能“净化”，但很难“一键清除”。这类“噪音”多是架构与训练分布的副产物，可通过后归一化、缩放残差、减弱/替换SwiGLU（如平方ReLU或加入谱约束）、以及长序列占比更高的训练来显著压低“尖峰”和“黑洞”，通常困惑度不降。若完全粗暴抹掉，可能牺牲短程依赖与数值稳定，因此更像“重整秩序”而非“清空噪声”。工程上也有即插即用的“降噪包”。已训练模型可在推理端做K-平滑/去均值（利用softmax平移不变性不伤精度）、按token激活裁剪或ACClip，降低对BOS/标点的固化汇聚头温度或定向屏蔽；量化前配合SmoothQuant/AWQ做激活平滑；微调时加入反汇聚正则，约束无关token的注意力。这些做法通常能减少极端激活、稳住INT8/INT4量化，并让长上下文注意力更“干净”。

AI的“设计缺陷”竟是进化优势？

像“尖峰”和“黑洞”这样的“设计缺陷”，更像是训练动力学下自发长出的“快捷电路”。在短上下文和预归一化的压力下，模型学会用少数恒定方向当“注意力垃圾场”和“强放大器”：一方面为若干头提供可控的基准信号与动态范围，减小logit方差、加速早期收敛；另一方面把格式标点、起始位当锚点，快速建立句内依赖与生成节奏。这些都是优化层面的进化优势，而非语义层面的必要条件。但优势带着价格标签：极端激活恶化量化与数值稳定，黑洞消耗注意力预算、拖累长上下文。好消息是它们可被“驯化”而非一刀切：用长序列课程逐步稀释黑洞；在中后期切换到后归一化或混合归一化；在Value路径加可学习的径向缩放门，保留汇聚的调节作用而不引爆激活；对SwiGLU做谱约束/增益上限，限制定向放大。把它们当可开关的辅助电路，用于冷启动提速，而在部署前关掉以换取稳、准、长。

新知 - 大圆镜｜大模型的尖峰与黑洞，竟是架构设计的副产品

大圆镜

内容由AI生成，思考得你完成

App Store 下载 Android 下载

从尖峰到黑洞：一条完整的因果链

我们先拆解“尖峰”的一生。它不是凭空出现的：模型前几层的前馈网络会像定向放大器一样，对特定词元的输入进行疯狂放大——这个放大器有个固定的“瞄准方向”，而序列第一个词元、句号这类分隔符，恰好天生对准了这个方向。

被放大的激活值会通过残差连接像滚雪球一样在模型里传递，形成一个稳定的“高能量平台”，直到最后几层才被反向的激活信号抵消。整个过程像一场精准的外科手术：早期“抬升”，中期“维持”，晚期“中和”。

而“黑洞”的诞生，全靠前归一化这个关键桥梁。前归一化会把尖峰激活压缩成一个稀疏、恒定的向量——不管是“你”还是句号，归一化后它们的向量几乎一模一样。当这个恒定向量进入注意力机制，部分注意力头的查询向量会天然和它对齐，就像钥匙插进了锁孔：不管当前要处理什么语义，这些头都会把注意力疯狂砸向这个“万能锁孔”。

不是必需，只是副产品：最震撼的消融实验

最颠覆的发现来自论文的消融实验：研究人员把前归一化换成后归一化，结果尖峰现象几乎消失了，但黑洞居然还在——这证明两者完全可以分离。

更关键的是，不管是去掉尖峰，还是用长序列训练消除黑洞，模型的语言建模能力几乎没受影响。也就是说，这些我们习以为常的“智能特征”，其实是模型为了适应架构设计，自己演化出的“权宜之计”：黑洞就像一个临时的“注意力垃圾场”，模型把不知道该放哪的权重全扔进去，好让其他头专注于真正的语义。

但这个权宜之计代价不菲：尖峰激活是低精度量化的噩梦——仅仅2个尖峰词元，就会占据95%的量化误差；黑洞则会浪费宝贵的注意力预算，让模型在处理长文本时力不从心。

从炼丹到工程：架构设计的新选择题

这篇论文最有价值的地方，是把大模型从“黑盒玄学”拉回了“工程设计”的轨道。我们一直以为前归一化是训练稳定的最优解，但它带来的副作用，其实正在限制模型的上限。

现在，研究者们有了新的选项：比如重新审视后归一化，或者用混合归一化平衡稳定性和性能；比如给模型设计专门的“注意力弃置槽”，代替自然词元当黑洞；再比如用动态门控机制，从根源上避免尖峰激活的产生。

但这些方案都还面临挑战：后归一化在大规模预训练中的稳定性还需要验证，混合归一化的理论框架尚未完善，动态门控则会带来新的可解释性难题。我们离真正“可控”的大模型，还有一段路要走。

当我们把大模型当成“智能”来崇拜时，这篇论文提醒我们：它更像一个在特定规则下演化出的复杂系统——很多看似神奇的行为，不过是为了适应规则而长出的“冗余器官”。

理解这些冗余，我们才能真正掌控智能。未来的大模型，不该是一个充满意外的黑盒，而该是一套可以精准调试的精密系统。

从理解副作用开始，迈向可控的智能。

从尖峰到黑洞：一条完整的因果链

不是必需，只是副产品：最震撼的消融实验

从炼丹到工程：架构设计的新选择题

评论