不占计算资源，数据如何狂飙？

“零 SM”的秘诀不在“凭空传送”，而在把搬运工从 SM 换成专用引擎。EPv2 用 GPUDirect RDMA 与 Copy Engine 接管 all‑to‑all、all‑gather 等数据流：NIC 直接从 GPU HBM 进行 RDMA 读/写，或由 GPU 的 Copy Engine 执行 NVLink/PCIe 对拷，SM 只负责算子本体不再承担“进度内核”。NCCL Gin 负责建立 QP 与链路编排，Fully‑JIT 选定分片大小与分路策略，数据在 NVLink 与 RDMA 上并行突进，而计算内核毫不受扰。想“狂飙”还得把“车”变轻、路更顺。EPv2 在出网前做字节压缩与对齐：FP8/FP4 打包、路由索引紧凑化、SwiGLU+quant 融合减少一次访存；分块与双缓冲让 NVLink 包长与 NIC MTU 对齐，降低小包开销；分析式 QP/通道数直接匹配链路速率，免去代价高昂的 autotune。实测在 EP 8×2 规模下可见约 90 GB/s 的逻辑带宽，相比 V1 峰值提升至多 1.3×，同时把 SM 占用从 24 压到 4–6，甚至进入 0 SM 模式。需要承认，“零 SM”不是零成本：会吃掉 Copy Engine、NIC QP、PCIe/NVLink 与 HBM 带宽，并强依赖 GPUDirect RDMA 与良好的拓扑。工程上要做好 buffer 预注册、doorbell 批量提交与 CQ 节流；一旦环境不达标，再回退到极低占用的 warp 专用化内核。结论是，把通信彻底外包给硬件通路，并把“每个字节”的成本降到极致，数据才有资格狂飙而不挤占算力。

AI军备竞赛，为何自亮底牌？

因为在这场军备竞赛里，谁先把底层“摊开”，谁就先占标准。把接口、内存布局和并行范式钉成事实规范，后来的芯片、框架、云服务只能围着你适配，路径依赖一旦形成，护城河来自网络效应而不是几段秘方代码。同时，开源把研发变成“社会化协作”：社区替你找 bug、做移植、打磨性能，迭代速度与人才吸引力同步放大。更关键的是，MoE 等超大模型的胜负早已不在“点子”，而在系统与成本曲线。通信与调度才是极限瓶颈，闭着门优化不如把内核抛给全行业一起逼近硬件上限。代码易被复现，难复现的是规模化算力编排、数据与评测流水线、SRE 体系与分发渠道。自亮底牌的实质，是把战场从“能不能做”转成“用更少 SM、更低功耗把同样吞吐做得更稳更便宜”。还有现实掣肘：地缘与 GPU 供给不稳逼着厂商跨架构适配。公开底层让国产芯片与多家云“即插即用”，降低锁定与合规风险；对政企市场，透明、可审计更容易过标。商业上也并非“白送”——开放获取流量与口碑，闭环落在企业支持、托管服务与专有增强包上。换句话说，亮牌不是示弱，而是把护城河从代码搬到生态与运营。

人人都能炼大模型，然后呢？

当“炼模”不再稀缺，护城河就从“会不会训练”转到“用得起、用得稳、用得对”。优势会集中在三件事：一是数据与对齐——谁握有持续增量、带标签或可弱监督蒸馏的专有数据，谁能把评测闭环做成在线A/B与任务级ROI，谁就越训越准；二是推理经济学——把KV缓存、检索/外部记忆（类似Engram思路）、MoE与EP调度、KV/激活下沉到更便宜的内存/网络，做到同等SLA下的最低“元/百万token”；三是产品分发与集成——把模型嵌进真实工作流、工具调用和企业权限体系里，形成高切换成本。随后发生的是“系统化竞争”而非“单模型对决”：模型路由与多模小模型协作变成默认架构；适配异构算力与网络成为工程分水岭；安全与合规从声明式走向可验证式，模型SBOM、内容溯源与红队对抗进入交付清单。市场会出现权重/Adapter市集、SLA经纪与按任务付费；岗位上，数据策展、评测科学家、推理成本工程师与可靠性负责人将比“预训练工程师”更吃香。结论很朴素：人人能炼只是起点，胜负在“对齐数据×推理成本×可验证可靠性”的长期复利。

新知 - 大圆镜｜大模型训练效率跃升：底层算子与通信的双重革命

对抗知识焦虑，从看懂这条开始

App 下载

把GPU榨干：Tile Kernels的精细化算子革新

你可以把大模型训练想象成一场万人厨房大赛：每个token是一道菜，「专家」是掌勺厨师，而GPU的计算单元就是灶台。过去，灶台要么空着，要么厨师们挤在一堆抢工具，效率低得离谱。 Tile Kernels就是给这场大赛重新设计了厨房动线——它把数据切成大小刚好匹配GPU硬件的「tile块」，让每个计算单元都能精准拿到自己的食材，不用来回跑着取料，也不会抢工具。比如处理MoE模型的专家路由时，它把选专家、打分、分配token这些步骤揉成一个连贯动作，像流水线传菜一样顺畅，没有多余的停顿。

更关键的是，它用TileLang这个「厨房设计语言」替代了复杂的CUDA编程，开发者不用再死记硬件细节，只要说清楚「要做什么」，系统就会自动算出最高效的「怎么做」。该团队表示，他们的多数算子已经摸到了GPU计算强度和内存带宽的天花板，就像把灶台的火力开到最大，锅具和食材的摆放刚好让厨师一秒都不浪费。

拆掉通信墙：DeepEP V2的专家并行新范式

如果说Tile Kernels是优化了单个厨房的效率，那DeepEP V2就是解决了「连锁厨房」的配送难题。在MoE模型里，每个token要被送到对应的专家厨师那里，过去这个配送过程要占用大量GPU计算资源，还经常堵车——就像送菜的货车占了灶台的位置，厨师只能等着。 DeepEP V2做的第一件事，就是把送菜的货车彻底移出了厨房。它用纯RDMA技术实现了GPU之间的直接通信，不用经过CPU中转，就像厨房之间开了专用的传菜电梯，菜直接从这个灶台传到那个灶台，完全不影响厨师炒菜。更狠的是，它把通信资源占用从原来的24个SM降到了4-6个，相当于把原来占了半个厨房的配送区，缩成了一个小角落。

在实际测试中，当用8个专家并行训练时，它的节点内通信带宽能跑到153-158GB/s，几乎把NVLink的带宽用满；跨节点通信也能达到43-58GB/s，比前代快了30%。这意味着，就算你有上百个「连锁厨房」，每个厨师都能在一秒内拿到需要的食材，不会再因为配送慢而停工。当然，它也不是完美的：目前它对非NVIDIA硬件的兼容性还不够，队列缓冲区的设计也有点复杂，未来可能还要调整。但不可否认的是，它把大模型分布式训练的通信瓶颈，一下子推到了新的高度。

1+1>2：底层协同的效率魔法

单独看Tile Kernels和DeepEP V2，都是各自领域的优化，但当它们组合在一起时，就产生了1+1>2的化学反应。 Tile Kernels把每个GPU的计算效率拉满，让每个「厨房」都能以最快速度做菜；DeepEP V2则把「连锁厨房」之间的配送效率拉满，让菜能精准快速地送到对应的厨师手里。比如在MoE模型训练中，Tile Kernels优化了专家的门控和路由算子，让选专家的速度更快；DeepEP V2则把分配token的通信延迟降到最低，两者配合，整个训练流程就像一条精密的流水线，没有任何多余的环节。这种协同还体现在资源的极致利用上：Tile Kernels减少了内存带宽的浪费，DeepEP V2减少了通信资源的占用，两者加起来，让GPU的整体利用率从原来的不足30%，提升到了接近硬件极限。在测试中，用同样的GPU资源，训练速度提升了30%，而训练成本则直接降了40%以上。

不过，这套协同方案目前还只在特定的硬件环境下发挥了最大效果，如何适配更多异构硬件，比如AMD的GPU和国产AI芯片，还是未来要解决的问题。但不管怎样，它已经证明了：大模型的效率革命，从来都不是某一个技术的突破，而是底层基建的全面升级。

当我们谈论大模型的未来时，往往把目光聚焦在模型的智能程度上，却忽略了支撑它的「基建」。就像一座摩天大楼，人们惊叹它的高度，却很少注意到地下的地基有多深。 Tile Kernels和DeepEP V2的出现，就是在为大模型打更深的地基——它们没有创造新的算法，也没有发布新的模型，却让现有的模型能跑得更快、更省、更稳。这恰恰是AI产业化最需要的：不是遥不可及的黑科技，而是能把技术落地的「硬实力」。底层基建的厚度，决定了AI能走多远。

把GPU榨干：Tile Kernels的精细化算子革新

拆掉通信墙：DeepEP V2的专家并行新范式

1+1>2：底层协同的效率魔法

评论