对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
GPU集群|液冷冷板|OFC大会|数据中心带宽|XPO光模块|半导体技术|前沿科技
当十万块GPU在一个数据中心里同时运算时,每一丝数据延迟都可能让训练周期拉长数天。2026年春天,光通信行业突然找到了破局的折中方案——一个叫XPO的光模块,把单模块带宽拉到了12.8Tbps,是传统产品的8倍,却能像U盘一样随时插拔更换。它刚在OFC大会上露面,就被45家厂商组成的联盟捧成了香饽饽,连微软、亚马逊这类云巨头都下场站台。这不是最完美的技术,却是当下最懂数据中心痛点的选择。
你可以把XPO的核心结构想象成一块奥利奥饼干——两块各带32条高速通道的PCB板,像饼干片一样夹住中间的液冷冷板。那些吃电又发热的激光驱动器、DSP芯片,全被贴在靠近冷板的内侧,热量直接被40-45℃的温水冷却液带走,比传统风冷低20-25℃,能扛住400W的超高功耗。

但真实的设计比饼干更精密:高功率元件和低功率的接收线路、控制逻辑被严格分到冷热两面,64条200Gbps的高速通道完全物理隔离,连低速的控制信号都走独立连接器,彻底杜绝串扰。这种设计让XPO的单模块带宽达到12.8Tbps,1U机架能塞16个模块,总带宽是传统OSFP方案的4倍——意味着一个十万卡级的智算中心,交换机机柜能从1408个砍到352个。

XPO不是没有代价。
为了实现12.8T的带宽,它的功耗冲到了400W,是1.6T传统模块的16倍,单位带宽功耗也比CPO高了两倍。更麻烦的是,它依赖原生液冷系统,数据中心得重新铺管道、配冷却液分配单元,部署门槛一下子提了上去。而且光引擎被放在PCB边缘,离交换芯片更远,信号路径变长,得靠更高功耗的SerDes来补损耗。

但云厂商的运维团队偏偏就吃这一套。CPO虽然功耗低、带宽密,可光引擎和交换芯片焊在一起,坏一个就得换整卡,不仅费钱,停机维护的时间更是AI训练的噩梦。XPO保留了可插拔的核心优势,用一把1:11杠杆比的释放拉片,不用工具就能轻松插拔,坏了拔下来换个新的就行——这是把运维效率,算进了技术选型的核心指标里。
光模块的演进路线,从来都是需求推着技术走。
2016年的OSFP解决了高密度可插拔的问题,LPO砍掉DSP换来了低功耗,CPO则代表着未来极致集成的方向——但CPO的良率低、成本高,现在还没法大规模铺开。XPO刚好卡在中间:它不用重新开发硅光芯片,能兼容现有所有光模块标准,开放的MSA联盟避免了单一厂商垄断,45家供应商一起把产业化的速度拉满。
这是典型的中场妥协:先解决当下最急的带宽缺口,把数据中心的机架数量、场地成本先降下来,给CPO的成熟留足时间。就像当年为了普及5G,先建NSA非独立组网,再慢慢过渡到SA——技术的完美,永远要让位于落地的效率。
当我们谈论XPO时,其实在谈论AI时代的技术务实性:不是追求绝对的完美,而是在带宽、功耗、维护成本之间,找到那个能让十万块GPU顺畅跑起来的平衡点。
它可能只是光模块演进路上的一站,却实实在在地解决了当下的燃眉之急——毕竟,对于正在疯狂扩张的智算中心来说,能快速落地的高带宽方案,比遥遥无期的完美技术更重要。
技术的迭代从来不是直线,而是在妥协中找最优解的曲线。