AI算力走向“通用”还是“专用”？

既不是二选一，而是加速“分层”。训练侧仍以通用GPU为底座，但向异构共存演进；推理侧则快速专用化，驱动来自成本、电力与时延三重压力。多家超大规模用户的账本已显示，推理占据大模型全生命周期成本的70%–90%；电力与液冷成为硬约束，倒逼FP8/FP4、超大SRAM与定制IO的ASIC渗透，也在客观上分流了CoWoS与HBM的供应瓶颈。真正发生变化的是“软件通用、硬件专用”的新均衡：编译与图优化层（如Inductor/Triton、MLIR、XLA）在上收口径，CUDA兼容层与本土软件栈并进，降低跨芯片迁移成本；互联与封装（NVLink Fusion、UCIe、以太网AI Fabric、Chiplet）让混合集群可运营。中期格局=上层通用、底层专用；更长期若范式向稀疏/MoE与小模型迁移，训练也会被更多专用阵列切走，但GPU仍将充当“通用指挥舰”。

芯片战争的终局是生态战吗？

是，但这场“生态战”不是应用商店式的争夺，而是从编译器到互联、再到运维与供应链的系统性竞争。胜负看两件事：开发者迁移成本能否被TCO节省覆盖，以及开放标准能否把硬件差异藏在抽象层之下。OpenXLA/StableHLO、Triton、ONNX Runtime、vLLM等正在抬高这一“抽象地板”，推理侧已出现多芯片并存；训练侧仍被CUDA+NVLink牢牢占据，除非以太网超算（Ultra Ethernet）、UCIe封装内互连、CXL内存池化在工程上跑通，才能改写格局。更关键的是，生态之争已延伸到产能与运维：谁能把HBM/CoWoS产能、液冷与兆瓦级电力保障，连同调度、弹性与容错的软件堆栈打包成可复制产品，谁就接住大模型落地潮。终局不看单点性能，而看“可移植的软件栈×可获得的产能×每瓦性能”的乘积。短期训练仍是英伟达的天花板，长期胜负取决于谁先把开放栈做成工业级标准，让开发者一键迁移、企业可预期扩容。

为何一边自研，一边疯抢英伟达？

因为训练与推理的“时钟频率”不同步。前沿训练要在几个月内追上SOTA，只能用已被验证的CUDA全栈与NVLink/NVSwitch超互联，移植核心算子、分布式调度与内存管理往往是“月到年”的工程，错过窗口损失巨大；而自研多从推理与特定负载切入，重在TCO与能效，但工具链、生态和可靠性都在爬坡期，短期难以完全承接最苛刻的训练与通用AI计算。更现实的是产能与生意。HBM与CoWoS仍是全球瓶颈，谁先锁定英伟达整机柜与液冷产线，谁就先拿到可交付的AI工厂与大客户工作负载；这还换来下一代产品的优先级与议价权。自研则把长期毛利和主导权握在自己手里，推理侧可降30%-50%总成本。结果就是混合栈成常态：GPU当“硬通货”抢回速度与确定性，自研当“护城河”滚动扩张与对冲风险。

新知 - 大圆镜｜云厂商自研芯片突围，英伟达不再独霸算力

对抗知识焦虑，从看懂这条开始

App 下载

英伟达的铜墙铁壁：生态与技术的双重护城河

要理解云厂商的突围，得先看清英伟达的壁垒到底有多厚。2006年推出的CUDA（统一计算架构），是这条护城河的核心——你可以把它想象成一个超级工具箱，里面装着数千万开发者用了20年攒下的扳手、螺丝刀和说明书，从游戏渲染到AI训练，几乎所有GPU能做的事，都能在这个工具箱里找到现成工具。全球超过90%的AI训练任务跑在CUDA上，开发者一旦熟悉这套工具，切换到其他平台的成本，不亚于让一个老厨师换用一套全新的厨具。

硬件上的优势同样难以撼动。英伟达最新的Blackwell架构GPU，搭配NVLink高速互联技术，单颗GPU的互连带宽能达到3.6TB/s，是传统PCIe总线的14倍。就像给每台电脑都装了直达高速路，72颗GPU组成的集群能实现260TB/s的总带宽，足以支撑数万亿参数大模型的实时训练。这种“硬件+软件”的垂直整合，让英伟达在过去10年里，把数据中心GPU的市场份额稳定在90%以上。

从推理破局：自研芯片的成本革命

云厂商的突围，没有直接硬碰硬挑战训练市场，而是从推理场景撕开了口子。AI推理就像餐厅的出餐环节——不需要研发新菜品，只需要把做好的菜快速、高效地端给客人。这个场景对通用性要求不高，却极度看重成本和效率，而这正是ASIC（专用集成电路）的强项。

亚马逊的Trainium3芯片就是最好的例子：它针对AI推理专门设计，性能是前代的4倍，能把推理成本降低50%。AWS公开的数据显示，Trainium和Inferentia系列芯片的年收入已经超过200亿美元，客户包括Anthropic、Snap等巨头。谷歌的TPV7芯片，在推理场景下的总拥有成本比英伟达GB200低44%，苹果用8192颗TPU训练了自己的智能助手，Meta也宣布要在2027年直接采购TPU。

这些自研芯片不需要兼容所有AI模型，只需要把云厂商自己的核心服务——比如谷歌的搜索、亚马逊的推荐、阿里的电商——优化到极致。就像餐厅自己定制的传菜机器人，虽然不能炒菜，但端菜的速度比普通服务员快3倍，成本只有1/3。

国产芯片的窗口期：从替代到超越

对于国内云厂商来说，自研芯片不是选择题，而是生存题。在出口管制的压力下，英伟达对中国市场的芯片供应受限，国产芯片的窗口期突然打开。2025年，国产AI加速卡的出货量首次突破国内市场的40%，华为昇腾、阿里平头哥、百度昆仑芯成为第一梯队。

华为的昇腾950PR芯片，性能已经超过英伟达的中国特供版H20，还专门优化了对CUDA的兼容性，让习惯英伟达工具的开发者能快速迁移。阿里的真武810E芯片，已经在阿里云部署了多个万卡集群，服务国家电网、中科院等400多家客户，60%的芯片对外销售，年营收达到百亿级别。百度的昆仑芯P800，单机8卡就能跑671B参数的大模型，在中国移动的集采中拿下了70%的份额。

不过，国产芯片的挑战依然明显：在训练场景，CUDA生态的壁垒依然难以逾越；高端芯片的制造工艺还依赖海外工厂；软件工具链的成熟度，和英伟达还有至少5年的差距。但出口管制带来的窗口期，给了国产芯片厂商宝贵的时间——就像被按下加速键的追赶者，虽然还没跑到终点，但距离已经在一步步缩小。

当AWS宣布把自研的Trainium4芯片和英伟达的NVLink技术混合部署时，这场算力战争的终局已经逐渐清晰：英伟达不会被取代，但也不再能独霸市场。未来的AI算力体系，会是一个“双核异构”的格局——英伟达GPU主导训练市场，云厂商自研芯片成为推理场景的主力，两者在数据中心里共存，各自发挥优势。

算力的本质，从来不是谁的芯片跑得最快，而是谁能以最低的成本，把算力送到需要的地方。从“买算力”到“造算力”，云厂商的突围，其实是一场对“算力自主权”的争夺。算力的未来，是定制化的天下。

英伟达的铜墙铁壁：生态与技术的双重护城河

从推理破局：自研芯片的成本革命

国产芯片的窗口期：从替代到超越

评论