国产芯跑分反超，软件定义新算力？

“跑分反超”不是幻觉，它是全栈工程压倒单卡指标。国内团队正靠软件把硬件拉满：字节 MegaScale 在1.2万卡上把 MFU 做到55.2%；中移动用1.6万张国产 NPU 预训405B，MFU 45.13%；硅基流动在昇腾与国产 GPU 重写 Attention 和通信内核，MoE 推理单卡突破4000 toks/s。这就是“软件定义新算力”：以 IR/HAL 统一异构芯片，自动并行与算子自动调优叠加通信重叠，配合 FP8/混合精度与 KV 压缩；再用超节点互联把端到端时延压至微秒级（如 scaleX640、昇腾384 在 MoE/多模态上常见2.5–3倍提效）。当 MFU 从20%抬到40–55%，token/美元几乎翻倍，硬件差距被系统层吞没。但别误读为“全面超越”。国产栈在 BF16/INT4 原生指令、工具链鲁棒性与海量工作负载适配上仍补课，“反超”多见于定制模型或超节点内。可预见的节奏：短期推理与 MoE 先行；训练在容错和调度成熟后外扩。未来12–18个月，谁能把 MFU 稳在40%+并把异构集群做成“一朵云”，谁就拿走性价比话语权。

AI巨兽为何九成算力在「内耗」？

因为在十万卡规模上，GPU大多在“等”而不是“算”。等HBM喂数据，等NVLink/PCIe搬运，等全局all-reduce/all-gather对齐。任何微小抖动都会被同步放大；在ROCE无损以太网上，微突发会诱发PFC头阻塞，个别丢包或重传即可牵一发动全身。卡很忙，却忙在搬运、同步与重试。训练栈又在放大这场内耗。上下文暴涨而显存吃紧，microbatch被压到极小，只能大量梯度累积与激活重算，通信难与计算重叠；张量并行切得过细、FSDP/ZeRO逐层拉参让collective次数激增；MoE路由不均衡制造“拖后腿”。规模越大，Xid、掉卡、热降频等尾部故障越频繁，回滚与重跑直接吞噬吞吐。要把内耗变产出，靠纵向共设计而非再囤卡：并行贴合拓扑，少走跨域通信；深度重叠all-reduce与计算；用sequence/activation压缩与巨页放大有效batch、减少重算；以ECN/优先级替代单靠PFC的无损收敛；容错改为局部重算与弹性同步。万卡级已跑到约55% MFU的样板给出方向，跨入十万卡，胜负在网络与调度。

管好十万GPU，能借鉴城市交通吗？

能，甚至应该。十万GPU更像一座千万车流的多层立交城：NVLink是城市支路，POD间以太网是高速，All-to-All就是晚高峰。要疏通，先上“绿波+匝道控流+专用道”：在全局时隙内成批编排A2A；用DPU基于ECN/INT做速率控制、抑制微突发；为检查点与参数同步预留低抖动专用队列。业内实证表明，丢包1%就能腰斩利用率，而这套组合拳可把A2A带宽利用率从30%段位拉到80%+，直接抬高MFU。更关键的是建“交通管理局”：数字孪生仿真+动态路费。对作业实施准入与分时定价，把MoE路由、大检查点、重IO作业错峰；按coflow而非单流排队，优先保障跨POD长途流量，短途尽量在本机NVLink内消化。“编队行驶”用于大件货运：对齐流水线并行的micro-batch长度，减少等待差。事故快处靠子图级断点、故障机柜快速隔离与多路径重路由，把MTTR从小时压到分钟。做到这些，十万卡不再“堵城”，MFU迈过40%并非奢望。

新知 - 大圆镜｜囤50万张GPU只跑11%，AI算力藏着效率陷阱

对抗知识焦虑，从看懂这条开始

App 下载

11%不是GPU摸鱼，是算力在做无用功

要搞懂这个数字，得先搞懂一个核心指标——模型浮点运算利用率（MFU），简单说就是GPU的“有效干活率”：把GPU理论上能达到的最大算力，和它实际用在模型训练上的算力比一比，得到的就是MFU。

这和你在任务管理器里看到的“GPU占用率”完全是两码事。后者100%，只代表GPU没闲着，但它可能在忙着等数据从硬盘传到显存，可能在和其他GPU同步进度，甚至可能在重复计算早就算过的内容——这些都不算“有效干活”。而MFU，只盯着那些真正用来训练模型的算力。

11%的MFU意味着：理论上能训练出100份模型效果的硬件，实际只产出了11份。剩下的89%，全耗在了等待、通信、重复计算这些“无效忙碌”里。按行业标准，成熟的大模型训练MFU通常在35%-45%之间，谷歌、Meta的顶尖团队能摸到50%的门槛，11%几乎是公开数据里的谷底。

从11%到50%，卡脖子的是训练栈

要把MFU从11%拉到50%，靠加GPU没用，得啃下训练栈这块硬骨头——这是一套从数据加载到模型训练的完整软件体系，任何一个环节掉链子，都会拖垮整个集群的效率。

你可以把训练栈想象成一条工厂流水线：数据是原材料，GPU是工人，训练栈就是把原材料送到工人手里、让工人协同干活的整套流程。如果原材料半天运不到工人跟前（数据加载慢），或者工人之间要花半天时间对齐进度（跨GPU通信卡壳），再或者为了省仓库空间把半成品拆了又装（激活重计算），哪怕工人再多再勤快，整体效率也高不起来。

比如显存带宽瓶颈，就像工厂的传送带不够宽：GPU的计算能力越来越强，但数据从显存传到计算核心的速度跟不上，导致GPU经常“等米下锅”；再比如跨GPU通信，当集群扩展到几十万张GPU时，每一次参数同步都要在无数设备间传递数据，延迟和开销呈指数级增长；还有为了节省显存而用的激活重计算，相当于让工人把做过的工序再重复一遍，虽然省了存储空间，却白白消耗了算力。

不止xAI，全行业都卡在效率瓶颈

xAI的尴尬数字，其实是整个AI行业的缩影。业内有个心照不宣的秘密：很多团队的MFU都很难突破40%，甚至有人为了不让GPU被调走，故意重复跑训练来“刷”利用率数字。

过去几年，AI行业的竞赛焦点是“囤卡”——谁先抢到更多GPU，谁就有更大的模型训练资本。但现在大家突然发现，硬件只是入场券，能不能把硬件的潜力挖出来，才是真正的硬实力。就像你买了一辆顶级跑车，却天天在堵车的路上爬，再强的性能也发挥不出来。

为了提升MFU，行业已经在尝试各种办法：比如FlashAttention算法，通过优化数据读取方式，把注意力计算的效率翻了几倍；比如序列并行技术，把模型的序列长度拆分到不同GPU上，减少重复计算；还有动态批处理，让GPU的计算资源时刻都被填满。但这些优化都只是局部的，要让几十万张GPU真正“跑满”，需要的是从数据到模型的全链条协同优化。

当xAI把部分GPU租给外部团队时，其实已经在变相承认：与其让算力在无效忙碌中浪费，不如先变现一部分。但这终究是权宜之计，要真正发挥百万级GPU集群的价值，还是得啃下训练栈的硬骨头。

AI算力的竞赛，已经从“比谁的仓库大”转向“比谁的流水线顺”。囤卡时代的胜利，靠的是资本和供应链能力；而效率时代的胜出，靠的是对每一分算力的精细打磨。算力的终极竞赛，是效率的竞赛。那些能把GPU从“忙碌的无效”中解放出来的团队，才会是下一个时代的赢家。

11%不是GPU摸鱼，是算力在做无用功

从11%到50%，卡脖子的是训练栈

不止xAI，全行业都卡在效率瓶颈

评论