如果大脑有通信墙会怎样？

大脑一旦出现“通信墙”，首先体感就是“变慢与不同步”。跨脑区信号被拖慢或丢包，反应时延拉长，工作记忆易崩，语言与注意在节律（如θ–γ耦合）上失配。临床上，髓鞘受损会把轴突传导从几十米/秒拖到几米/秒，P300等事件相关电位明显延迟；胼胝体受损则出现“分脑”式整合失败，左右半球各说各话。系统层面，通信瓶颈会拉长网络最短路径，削弱“枢纽—富俱乐部”协作，信息被迫绕远路、噪声被层层放大，决策更犹疑、执行功能和情绪调节易失衡；运动环路的时序抖动则表现为迟缓与不稳。为弥补带宽，大脑会提高放电与同步，能耗上扬，任务期“过度激活”与早发的主观疲劳随之而来。大脑会尝试“绕墙”：短期改走替代通路与频段重配，长期靠可塑性与再髓鞘化重构连通，但代价是效率与精度下降且补偿有上限。唯有真正恢复“带宽”（如改善白质完整性、用神经调控增益或以脑机接口建立旁路），整体功能才可能从根本上回升。

芯片变小，算力反而更强？

可以，但“更强”多半体现在系统级吞吐，而不是单颗峰值。把巨无霸拆成小芯粒后，走线更短、供电影响更小、热点更易摊薄，常能跑得更高效；同时小芯粒围成的MCM在封装边缘可挂更多HBM与光I/O，单位算力能拿到更高的有效带宽/字节比，这对通信密集的训练至关重要。关键在通信。小而多的芯粒让张量并行的环形归并留在封装内的NoP上，跨节点流量改走可重构的光网，且利用CP与EP在时间上的错峰做链路复用，计算等待被显著压缩。结果就是：单粒算力变小了，但每步同步更快、设备闲置更少，整机吞吐反而上去。但这不是白给的红利。若没有高带宽NoP、足够的CPO端口与低开销的OCS，小芯片只会带来更多“下包外”的慢跳；内存也会成为新瓶颈，需要更多HBM与更强的带宽调度。结论是：芯片可以变小更强，但前提是互连与调度同频进化。

数据光速传输后，瓶颈在哪？

真正的慢，不在“光速飞奔”，而在“上下车口”。光进光出都要经过电-光/光-电转换、SerDes串行化和交换芯片/OCS的端口瓶颈：端口数不够、带宽密度受封装边界限制、OCS重配置是毫秒级。传播几十米光纤不到1微秒，但在400Gbps链路上发1MB就要≈20微秒，队列与串行化时间远大于飞行时间。进了节点内部，闸门换成了内存与封装内互联。NoP带宽上来了，HBM反而成新短板：单堆HBM3e~1TB/s量级，逻辑芯片要堆很多HBM才能喂饱算力与包内通信，否则通信隐藏不了内存等待，优化器/KV缓存也在抢带宽与容量，形成“内存墙”。最后卡在“齐步走”的同步与调度。AllReduce/All-to-All对尾延迟极敏感，任一慢节点都会拖全局；错配的物理/逻辑拓扑引发拥塞与incast；动态链路复用需要在阶段边界腾挪，切换保护与缓冲又吃掉宝贵时隙与能耗。热设计与成本同样是硬约束：能耗/比特与OCS成本不降下去，带宽也上不去。

新知 - 大圆镜｜北大团队用芯粒+光互连，把大模型训练提速20倍

对抗知识焦虑，从看懂这条开始

App 下载

从“单块巨石”到“乐高积木”：芯粒的革命

要理解ChipLight的突破，得先搞懂芯粒是什么。传统芯片是“一块巨石”——把所有计算、存储、通信功能塞进一颗大硅片里，不仅制造难度大、良率低，还容易因某一个小瑕疵整块报废。芯粒技术则像搭乐高：把大芯片拆成一个个功能独立的“小积木”，比如专门负责计算的逻辑芯粒、管存储的内存芯粒、处理通信的I/O芯粒，再用先进封装技术把它们粘在同一个基板上，形成一个多芯片模块（MCM）。

这种“化整为零”的思路好处太多：小芯片制造良率高，成本能降40%；还能混合搭配不同工艺的芯粒——比如用7nm做计算芯粒，用更成熟的14nm做存储芯粒，在性能和成本间找到最优解。更关键的是，芯粒之间的通信带宽能达到数百GB/s/mm，是传统单芯片内部互连的好几倍，相当于把节点内部的“高速路”修到了每个芯片角落。

但芯粒只是解决了“节点内部”的拥堵，跨节点的“乡间小路”问题还没解决——这就得靠光互连了。

用光代替电：跨节点通信的破局者

传统跨节点通信靠电信号，就像用快递车拉货：速度慢、损耗大，拉得越远成本越高。光互连则是用光纤传数据，相当于给数据开了“飞机”——带宽是电互连的10倍以上，延迟却只有几分之一，还几乎不受距离影响。

ChipLight用的是更先进的“共封装光学（CPO）”：把光模块直接焊在芯片封装边缘，电信号不用再走长长的铜线，刚出芯片就变成光信号，损耗直接降了90%，带宽密度能达到128GB/s/mm。再搭配光电路交换机（OCS），就像给数据建了个“空中调度中心”——能在毫秒级内切换光路，让不同的训练任务共享同一根光纤，把链路利用率提了30%。

但ChipLight的厉害之处，不止是把两个好技术凑在一起，而是搞懂了大模型训练的“交通规律”：大模型训练时，不同并行策略的通信高峰是错开的——比如上下文并行的通信在注意力层，专家并行的通信在FFN层，两者根本不会同时堵车。他们就利用这个特点，让同一根光纤在不同时间干不同的活，相当于把一条路早上给公交车用，晚上给货车用，彻底把资源用满了。

跨层协同：从“各自为政”到“全局最优”

过去做AI集群设计，是“各自为政”：芯片厂商只管做芯片，网络厂商只管做网络，算法工程师只管调并行策略，最后凑在一起，难免出现“鞋不合脚”的问题——比如芯片的通信带宽和网络的带宽不匹配，或者并行策略的通信模式和网络拓扑不兼容。

ChipLight则是“全局一盘棋”：它把芯粒规模、内存配置、光链路数量、网络拓扑和并行策略都放进一个优化框架里，用嵌套搜索的方法找最优解。外层先找最合适的MCM架构——比如用多少个芯粒、配多少内存；内层再根据训练任务的通信模式，把流量智能分配到芯粒内部的高速网或者跨节点的光网，甚至能动态调整并行策略，让硬件和算法完美适配。

实验结果说话：用Qwen3-235B模型测试，ChipLight集群比传统H100集群的训练吞吐量高了19.58倍；和同样用芯粒+光互连的RailX方案比，在相同成本下吞吐量还高了41%。更重要的是，他们还得出了6个关键洞察——比如小规模MCM加光互连，性能能媲美大规模MCM，但成本能降23%；逻辑芯粒配的HBM内存，得比传统GPU多一倍以上才够用。这些洞察直接给未来AI超算的设计指明了方向。

ChipLight的意义，不止是把大模型训练提速了20倍，更是给AI基础设施的未来画了一张清晰的路线图：当单芯片的性能摸到天花板时，芯粒+光互连的组合，就是突破通信瓶颈的最优解。

当然，这条路也不是一帆风顺：芯粒封装的翘曲问题、光互连的成本问题、软硬件协同的复杂度问题，都是摆在眼前的坎。但至少我们已经看到了方向——不是靠堆更多的GPU，而是靠重构底层的“交通系统”，让每一分算力都用在刀刃上。

算力的未来，不在单块芯片里，在芯片的连接里。

从“单块巨石”到“乐高积木”：芯粒的革命

用光代替电：跨节点通信的破局者

跨层协同：从“各自为政”到“全局最优”

评论