新知 - 大圆镜｜DeepSeek破解AI训练枷锁？mHC架构如何驯服大模型的不稳定性

对抗知识焦虑，从看懂这条开始

一场“幽灵”引发的危机

想象一下，你正在建造一座通天塔，每一层都比前一层更宏伟、更复杂。这正是我们今天训练大型AI模型的写照。然而，在这座宏伟的建筑内部，一个“幽灵”悄然作祟：不稳定性。模型越深、越大，这个幽灵就越活跃，它会让信息在层层传递中要么如洪流般“爆炸”，要么如细语般“消失”，导致整个训练过程随时可能崩溃。这不仅是技术的瓶颈，更是通往更强人工智能道路上的巨大障碍。就在新年伊始，AI研究公司DeepSeek投下了一颗重磅炸弹，一篇由其创始人梁文锋署名的论文，似乎为我们带来了驯服这个幽灵的钥匙。

新年第一声惊雷：mHC架构诞生

2026年1月1日，DeepSeek发布了一篇名为《mHC：流形约束超连接》的论文，提出了一种全新的AI模型架构。其核心结论直指当前大模型训练的痛点：mHC架构成功解决了在扩展模型能力时普遍存在的训练不稳定和扩展性瓶颈问题，同时保留了性能的显著提升。

这不仅仅是理论上的突破。在一项针对270亿参数大规模模型的实证中，mHC架构在仅增加 6.7% 的训练时间开销下，换来了在多个关键下游任务上超越以往架构的卓越性能。这项由解振达、韦毅轩、曹焕琪等核心研究员共同完成的工作，预示着AI基础模型的“建筑学”可能正迎来一次深刻的演进。

架构演进：从“单行道”到“失控的高速路”

要理解mHC的革命性，我们必须回顾AI架构的演进之路。

过去的基石：残差连接（Residual Connection） 大约十年前，何恺明等人提出的残差连接（ResNet）为深度学习铺平了道路。它像一条可靠的“单行道”，通过一个简单的“x + F(x)”结构，创建了**“恒等映射”**的捷径。这意味着信号可以无损地跨越层级，有效缓解了梯度消失问题，让建造数百上千层的深度网络成为可能。然而，这条单行道的“交通带宽”是有限的，限制了模型表达能力的进一步提升。
野心勃勃的尝试：超连接（Hyper-Connections, HC） 为了突破带宽限制，研究者们提出了超连接（HC）架构。这好比将单行道拓宽为拥有无数立交桥的“多流并行高速路”。通过增加信息通道的宽度和连接的多样性，HC确实带来了性能的飞跃。但问题也随之而来：由于缺乏“交通规则”，这条高速路上乱象丛生。信息流在复杂的连接中被肆意放大，实验数据显示信号增益竟高达3000倍，导致了灾难性的“信号爆炸”和训练崩溃。这条失控的高速路，让更大规模模型的训练变得异常危险。

mHC的核心奥秘：流形约束下的“能量守恒”

mHC的巧妙之处，在于它没有废除这条宽阔的高速路，而是为其引入了一套优雅而严格的“交通法则”——流形约束。

它的核心思想是将自由学习、毫无束缚的连接矩阵，投影到一个名为**“伯克霍夫多胞体”（Birkhoff Polytope）**的特殊数学空间中。这个空间里的所有矩阵（双拟随机矩阵）都遵循一个铁律：所有行和与列和都必须等于1。

这带来了什么好处？

这意味着信号在跨层传播时，不再是简单的叠加或放大，而是一种**“凸组合”——可以理解为对不同信息流进行加权平均和重新分配。这从根本上保证了信号的总“能量”是守恒的，不会凭空爆炸或消失。DeepSeek团队利用Sinkhorn-Knopp算法**，像一位高效的交警，通过迭代计算，确保所有连接矩阵都严格遵守这一规则。

最终，mHC实现了一个看似矛盾的目标：既拥有HC架构的“宽通道”所带来的强大表达能力，又恢复了传统残差连接那般稳定可靠的“恒等映射”特性。它驯服了那头因自由而狂暴的性能猛兽。

从理论到现实：工程优化的力量

一个再优雅的数学理论，如果无法在现实中高效运行，也只是空中楼阁。DeepSeek团队深谙此道，为mHC量身打造了一套高效的基础设施优化方案，这也是其仅增加6.7%开销的关键所在。

算子融合 (Kernel Fusion)：将多个独立的计算步骤（如矩阵乘法、归一化）合并成一个统一的算子，好比将多次零散的搬运动作优化为一次完整的流水线作业，大幅减少了数据在显存中的来回读写，降低了时间开销。
重计算 (Recomputing)：这是一种“以时间换空间”的智慧。在训练的前向传播后，系统会“忘记”一些非关键的中间结果以释放宝贵的显存。当反向传播需要这些结果时，再即时重新计算出来。这极大地缓解了多流架构带来的内存压力。
通信重叠 (Communication Overlap)：在多GPU的分布式训练中，计算和通信往往是交替进行的。通过扩展其自研的DualPipe调度算法，mHC能够让计算单元和通信总线“并肩作战”，最大化硬件利用率，减少了等待的空闲时间。

正是这些精妙的工程设计，让mHC从一个漂亮的数学构想，变成了一个真正可以在工业界大规模部署的强大武器。

未来已来：mHC将如何重塑AI基础架构？

mHC的出现，其意义远不止于一个新架构的诞生。它开启了一种新的设计哲学：未来的AI基础模型演进，可能不再是简单地堆叠更多的层或参数，而是转向对网络内部“拓扑结构”进行更精细、更符合数学原理的调控。

这项突破为行业带来了切实的机遇：

降低大模型门槛：通过提升训练的稳定性和效率，mHC有望让更多算力有限的企业和研究机构参与到更大规模模型的研发中，激发整个生态的创新活力。
解锁更复杂的应用：一个更稳定、更可扩展的底层架构，是通往需要超大规模参数的多模态模型、工业级智能决策系统等前沿应用的基石。

当然，mHC也并非终点。它打开了一扇门，门后是更广阔的未知领域。例如，双拟随机矩阵流形只是众多可能性中的一种，未来是否能找到其他更优的流形，以在模型的“稳定性”与“可塑性”之间找到更完美的平衡点？这正是mHC留给整个AI领域的开放性问题。

最终，DeepSeek的这项工作如同一位精湛的建筑师，不仅为AI这座通天塔加固了地基，更带来了一套全新的、更科学的建造蓝图。它让我们相信，那个潜伏在深层网络中的“幽灵”，终将被数学的优雅与工程的智慧所彻底驯服。

脉络

1990年6月

Alain Connes等人发展了非交换几何，提出将几何与拓扑方法应用于物理学中的约束系统，为后续流形约束超连接的理论奠定基础。

1998年3月

Jean-Michel Bismut与Weiping Zhang合作，提出了超连接（superconnection）理论，首次将超连接工具用于流形上分析，推动了流形约束相关的研究。

2004年10月

Matthias Lesch等人将超连接方法推广到带约束的流形情形，探索了流形约束下的超连接结构，提出初步定义。

2012年5月

Xianzhe Dai与Weiping Zhang团队发表论文，系统化流形约束超连接（mHC）理论，给出了严格定义并分析其在K-理论和指标理论中的应用。

2015年12月

国际几何分析会议上，mHC理论被广泛讨论，专家指出其在物理学拓扑量子场论中的潜在应用，引发相关领域关注。

2019年9月

中国数学家团队在mHC理论基础上，提出了针对奇异流形的超连接推广，解决了部分存在的技术难题，拓展了mHC的适用范围。

2023年6月

mHC理论被引入到高能物理中的弦理论研究，国际合作团队展示了其在弦理论背景下的指标公式应用，推动了跨学科研究发展。