不买新显卡，AI算力也能飙升？

能。今天的大模型推理更受网络与内存束缚而非FLOPs。把“路”修好，算力就冒出来。像ZCube这类拓扑把跨层拥塞从根上拿掉，配合MRC一类多路径容错，常见可把吞吐抬高10–20%、P99尾时延压低30–50%。折算就是同等SLA下少买一成以上GPU；在一万卡规模，相当于省出约1000–2000卡外加光模块与机柜。更猛的是软件侧的“白嫖”组合拳：continuous batching+PagedAttention+GQA/MQA，让高并发tokens/s提升2–4倍；推测解码/多头解码带来1.5–2.5倍；INT8/INT4与KV压缩提升1.3–2倍；FlashAttention‑3、核融合与FP8再给1.2–1.6倍。效果可叠乘，典型线上在不换卡前提下实现2–5倍吞吐，代价是工程改造与对质量回归的精细把关。落地关键有三：用细粒度遥测抓“热叶子”和失衡网卡，做机架/交换机感知的任务编排与分片；按上下文长度分桶，Prefill/Decode分离调度；为量化与解码策略建立A/B与SLO守门。把这些做好，你会发现“算力增长”更多来自系统工程，而非仓库里那块新卡。

给AI修路，该学交通规划吗？

要不要学交通规划？答案是：学思维，不搬术语。超大规模 AI 网络和城市路网遵循同一套拥塞物理：流量不均、瓶颈合流、尾时延放大。交通学里的 Wardrop 均衡与 Braess 悖论，正对应数据中心的 ECMP 多路径与“加路反更堵”；更有效的做法像交通里的“取消层级、唯一最短路、匝道控流”：先用拓扑把可避免拥塞从根上抹掉，再让传输协议去兜底那些物理必然的末跳竞争。落到能力栈，你真正该补的是排队论与拥塞控制（尾分布、PFC/ECN/HPCC）、图论与拓扑优化（二部图、扁平两跳、最小割）、运筹与成本建模（端口密度/光模块/CapEx-吞吐曲线），再加上基于遥测的闭环控制。用 INT 与 eBPF 做“交通普查”，在 ns-3/OMNeT++ 或自建仿真复现实流，把路由、限速、优先级落到可编程交换机与 RDMA 栈里，打造“架构无拥塞、协议强容错”的组合拳。像规划师那样干活：先量化 Prefill/Decode 与 KV Cache 的时空分布，再用数字孪生推演“唯一最短路径”拓扑与入场红绿灯；上线后启用微秒级故障绕行与分业务“专用车道”（KV/AllReduce 独立队列与 SLA），并对超长上下文施行“拥堵费”（限速或排队）。这套路线，比单纯多买 GPU，更快，也更省。

AI的唯一高速路，堵车了怎么办？

别把“堵车”只当带宽问题，源头减流量+路径不打架才是正解。把 Prefill/Decode 绑在同一 ToR、会话粘滞在原 GPU，按上下文长短分舱调度，先把 KV 跨机流量砍掉；其上用扁平拓扑消灭结构性热点（唯一路径、二跳直达），再叠加多路径可靠传输在微秒级绕开抖动和故障，三板斧一齐下，尾时延先稳住，吞吐随之抬起。网络还没法重构？就先做 90 天止血。关掉“PFC 风暴”，用 ECN/DCTCP 精调队列阈值+NIC 节流，改用 flowlet/一致性哈希把热点打散；对 KV 做 INT8/FP8 量化与压缩，配合分片亲和放置，常见能把东西向流量降一半；再加 SLA 感知限流，对超长上下文分批预填充，避免占满 ToR 出口。算一笔快账：万卡集群里，只要把网络抖尾收回 10%—15%，等同“解放”一千多张高端卡；而去掉一层 Spine 还能少三成光模块与端口功耗。训练看吞吐，推理看 TTFT P99——把路修顺，比多买卡更快、更省，也更可持续。

新知 - 大圆镜｜不增GPU也能提算力15%，全靠这张网

对抗知识焦虑，从看懂这条开始

App 下载

想象一下：你手里的GPU集群明明满负荷运转，却有近两成算力被白白浪费——不是GPU不够强，是数据在传输路上堵死了。2026年的AI圈正卡在这个瓶颈上：当GPU集群从千卡扩到万卡，新增的算力根本没法线性释放，网络延迟和拥塞把GPU拖成了“等数据的闲人”。最近有两项技术直接把这个死结剪开了：一个是靠协议让数据“走小路绕堵”，另一个干脆把整个网络的“高架桥”拆了，换成了“平面快速路”。不用加一块GPU，就能让集群多跑15%的任务，还能把用户等首条回复的时间砍去近一半。

被误解的拥塞：一半是天灾，一半是人祸

要搞懂这两项技术为什么管用，得先把网络拥塞拆成两半——这是很多人之前没搞明白的关键。

第一类是不可避免的拥塞，算是“天灾”：比如10个GPU同时给同一个目的地发数据，最后一条链路必然挤成“早高峰的地铁”，这是物理规律决定的，只能靠流量调度来缓解。

第二类是可避免的拥塞，完全是“人祸”：传统数据中心的网络像座多层立交桥，GPU之间传数据得先“上高架（Spine层交换机）”再“下匝道（Leaf层交换机）”。但AI推理的流量根本不是均匀的——有的GPU要频繁传大段的KV缓存，有的只发小指令，这种“忙的忙死闲的闲死”的流量，被立交桥的设计硬生生逼到了同几条匝道上，明明整体带宽够，局部却堵成了停车场。更糟的是，传统协议要求数据必须按顺序到达，一旦某条链路堵了，后面的数据包只能排队，最后连不堵的路也被拖慢了。

过去行业的思路都是“堵了再疏”：要么让数据绕路，要么给链路扩容。但2026年的这两项技术，直接从根上动手了。

两条破局路：拆桥，还是多修路

第一个方案是**多路径可靠连接协议（MRC）**——相当于给数据开了上百条并行的小路。

传统数据传输是“单行道”，一条路堵了全完蛋。MRC让一个数据流拆成上百个数据包，同时走不同的路径，哪怕某条路断了，其他包还能继续跑，而且接收端能直接把乱序收到的包放到正确的内存位置，不用等排序。更狠的是，它直接废掉了容易引发“全网堵车”的优先级流控（PFC），改用快速重传补丢包，把故障恢复时间从秒级压到了微秒级。在OpenAI的万卡集群里，这个协议让网络利用率从70%提到了96%，相当于凭空多挤出来近三成的带宽。

第二个方案更彻底：把多层立交桥拆成平面快速路。

传统的三层网络架构被彻底推翻，所有交换机分成两组，像棋盘的黑白格一样两两互联，GPU之间传数据最多只需要经过两台交换机，比原来少了一跳。更巧妙的是，每张GPU的两个网卡，一个“绑定”固定的交换机，另一个“打散”接入不同的交换机，这样任意两个GPU之间都有且只有一条最短路径——不用再纠结走哪条路，也不会出现多条路抢资源的情况，从架构上就把“可避免的拥塞”掐死了。

在千卡级的实际测试里，这套架构让推理吞吐直接涨了15%，首Token响应的尾延迟降了40.6%，还能少买三分之一的交换机和光模块——相当于花更少的钱，让GPU从“等数据”变成了“满负荷干活”。

以太网的逆袭：从配角到主角

这两项技术还有一个共同的信号：以太网正在把AI网络的“老霸主”InfiniBand拉下马。

过去InfiniBand靠低延迟、零丢包垄断了高端AI集群，但它是个封闭的生态，价格贵，只能绑定特定硬件。而MRC和扁平化架构都是基于开放的以太网标准，现在的以太网芯片已经能做到和InfiniBand差不多的延迟，还能靠更高的端口密度和更便宜的成本，支撑起十万卡甚至更大的集群。

更重要的是，以太网的开放生态让更多玩家能参与进来——不再是一家公司说了算，从交换机到光模块，整个产业链的成本都能降下来。比如现在已经有厂商把800G的网卡拆成8个100G端口，用多平面设计实现更高的容错率，成本却只有InfiniBand的一半。

当然，这套方案也不是没有局限：扁平化的网络需要更多的光纤布线，对数据中心的物理空间要求更高；MRC的多路径传输对网卡的计算能力也有要求，不是随便拿个旧网卡就能用。但这些都是工程问题，而非原理瓶颈。

当大家都在抢GPU的时候，有人转头把网络的“高速公路”重修了一遍。这背后其实是AI基建的逻辑变了：从“堆硬件”转向“提效率”。

过去我们以为，AI的瓶颈永远在算力——GPU越多，模型就越大，速度就越快。但现在发现，当GPU多到一定程度，网络就成了“木桶的短板”：你给木桶加了更长的木板，却没把桶底的漏洞补上。

算力的极限，其实藏在看不见的网里。未来的AI集群比拼的不再是谁的GPU更多，而是谁能让每一块GPU都跑满效率；不再是谁的链路更宽，而是谁能让数据走得更聪明。当十万卡、百万卡的集群成为常态，今天的这两项技术，可能就是未来AI基建的“标准配置”。

被误解的拥塞：一半是天灾，一半是人祸

两条破局路：拆桥，还是多修路

以太网的逆袭：从配角到主角

评论