把“冷却塔”建进芯片是啥操作？

简单来说，这就像是在芯片内部最热的“闹市区”直接修建了一条专用的“高速散热通道”，把热量快速疏导出去，而不是让热量在拥挤的“街道”（芯片内部电路）里慢慢传导。SK海力士这项iHBM技术的核心，是在HBM存储堆栈中发热最严重的区域——也就是连接HBM与GPU/CPU的物理接口层（D2D PHY）——直接嵌入了一种名为“ICE”的硅基冷却元件。这个“ICE”元件本身不导电，但导热性能极佳，相当于在芯片封装内部植入了一块微型的“散热片”。它创造了一条直达热源的新路径，让核心热量能够绕过传统上必须穿越的存储芯片核心电路，被更高效地排出。这样一来，整个封装的热阻降低了30%以上，这对于功耗和发热量越来越惊人的下一代AI芯片（如HBM5）至关重要，能显著提升系统在极限负载下的稳定性和可靠性。这项操作的精妙之处在于，它并非对现有生产流程的颠覆。SK海力士巧妙地将其成熟的MR-MUF先进封装工艺沿用过来，确保了技术可以快速稳定量产。对于英伟达这样的客户来说，这意味着他们无需对自家GPU设计做大改，就能直接享受到更“冷静”的下一代HBM内存，从而为更强大、更密集的AI计算铺平道路。

给AI“退烧”后，世界会更热吗？

给AI芯片“退烧”本身，确实能显著提升能效、降低数据中心冷却能耗，但这只是庞大AI能耗拼图中的一小块。问题的关键在于，AI的“高烧”根源在于其惊人的算力需求，而散热技术的进步可能反过来助推更庞大、更密集的AI算力集群的建设和运行，从而在系统层面增加总能耗和水资源压力。即便iHBM这类技术降低了芯片级热阻，为数据中心设计带来了更大灵活性，但AI硬件的发展趋势是功耗持续飙升。例如，英伟达下一代芯片的机柜功耗预计将迈向1000千瓦以上，这必然需要浸没式液冷等更高效的散热方案。虽然先进冷却技术（如某些液冷系统）能大幅降低PUE（能源使用效率）和WUE（水资源使用效率），甚至实现“零用水蒸发”，但若因此支撑起规模指数级扩张的AI算力，全球数据中心的整体能耗和用水总量仍可能大幅增长。有预测显示，到2028年，全球AI数据中心的用水量可能达到当前水平的11倍。因此，给AI“退烧”是一项至关重要的技术突破，能缓解局部散热压力、提升运营效率。但它更像是一剂“退烧药”，而非“根治方案”。若没有在可再生能源普及、算法效率革命和全球算力需求的理性规划上取得系统性进展，更高效冷却技术所支撑的AI爆炸式增长，其产生的“热岛效应”和资源消耗，仍可能让世界面临更热、更缺水的挑战。未来胜负手，在于冷却技术进步带来的能效收益，能否跑赢AI算力规模膨胀带来的资源消耗增量。

内存开始思考，CPU会被取代吗？

不会。所谓“内存开始思考”，本质是把带宽受限、数据搬运占大头的算子挪到HBM附近或堆栈内部执行（近/内存计算），减少来回搬运。现实给力但克制：在嵌入检索、规约、稀疏访问、KV/激活压缩等场景，实测常见到2–3倍吞吐、50–70%能耗下降的量级；海力士的iHBM把D2D热点热阻再降约30%，为在HBM5侧放入NMC处理器、L2缓存这类轻量逻辑打开了热/功耗窗口。但HBM单栈功耗与面积天花板明显，它装不下复杂控制流、事务与操作系统栈，更不适合高频分支与通用计算。真正变化是分工而非替代。CPU继续做“控制平面”：操作系统、调度、I/O与安全隔离，以及串行、时延敏感代码；GPU/专用加速器吞矩阵密集型计算；HBM侧的NMC负责就地预处理、压缩与规约，把“干货”再喂给GPU。结果是AI服务器里CPU配比与算力权重会下滑，但地位更像指挥官。未来3–5年更可能看到的是“带计算的HBM5/5E + CXL内存池 + DPU”的协同，以及编译器/运行时把合适算子下沉到内存侧——赢家将是把数据流切得最聪明的系统，而不是“谁取代了CPU”。

新知 - 大圆镜｜给芯片装内置冷却塔，AI算力瓶颈破了

对抗知识焦虑，从看懂这条开始

App 下载

被热量锁住的AI算力

你可以把HBM想象成AI服务器的“超级快递站”：它把几十层DRAM芯片垂直堆叠起来，用硅通孔当“快递通道”，让数据能以TB/s的速度在CPU、GPU和内存之间穿梭——这是AI大模型能快速处理海量数据的关键。

但堆叠结构也埋下了隐患：热量会像被困在高楼里的烟雾，只能从顶层的“窗户”慢慢散出去。尤其是HBM和GPU连接的D2D PHY区域，几千条信号线高速切换，产生的热量像在快递站里点了一堆篝火，而篝火的烟要穿过十几层“楼板”才能排出去。

传统的散热方案，比如在芯片顶部加散热器、用液冷冷板，都像在高楼外面装抽油烟机，能抽走顶层的烟，却管不了底层的篝火。当芯片温度超过95℃的安全线，就会自动降频“喘气”——这就是为什么很多AI服务器明明装了高端GPU，实际算力却只能发挥七八成。

一组数据能直观体现这个瓶颈：12层堆叠的HBM3E，底层芯片的温度比顶层高24℃，3D堆叠在GPU上时，局部温度甚至能冲到140℃，直接触发硬件保护机制。

芯片里的“热量高速公路”

iHBM技术的核心，就是在HBM的“篝火区”D2D PHY里，直接嵌入了硅基的集成冷却元件（ICE）——你可以把它理解成在篝火旁边直接挖了几条通向楼顶的通风管道，让热量不用再穿过十几层芯片，直接从内部排出去。

这个“通风管道”的设计很巧妙：它用的是电绝缘但热导率极高的硅基材料，既不会干扰芯片的电信号，又能像金属一样快速导走热量。相比传统散热路径，它把局部热阻降低了30%，相当于把烟雾的排出速度提升了近一半。

更关键的是，这个设计完全兼容现有的封装工艺。SK海力士用成熟的MR-MUF技术，把冷却元件和芯片一次性封装在一起，不需要客户改动服务器的设计——这意味着它能快速落地，而不是停留在实验室里的概念。

不过，这项技术也不是没有局限。它解决的是HBM内部的热阻问题，但如果服务器整体的散热系统跟不上，比如还是用传统风冷，顶层的热量依然排不出去。更值得关注的是，它本质上是一种“堵漏洞”的改良，而不是颠覆式的创新——当未来HBM堆叠到16层甚至20层时，可能需要更激进的散热方案，比如直接在芯片里刻微流道通冷却液。

散热战场的隐形竞赛

其实，iHBM技术只是AI散热战场的一个缩影。现在的AI芯片，正在经历一场“热量军备竞赛”：GPU的热设计功率从几年前的300W飙升到1400W，未来甚至会突破2000W，传统的风冷已经完全跟不上。

除了内置冷却元件，还有很多玩家在探索不同的路径：Imec通过“系统-技术协同优化”，把3D堆叠HBM-on-GPU的峰值温度从141.7℃降到了70.8℃；微软在芯片背面蚀刻微流道，用冷却液直接带走热量；还有的公司在尝试把整个服务器浸没在绝缘冷却液里，让芯片直接“泡在水里”散热。

这些技术的本质，都是在和物理规律赛跑——芯片的算力提升越快，产生的热量就越多，散热技术就必须跟上，否则再强的算力都会被热量锁住。而这场竞赛的胜负，直接决定了未来AI能跑多快、能做多大的模型。

当我们为AI大模型的惊艳表现欢呼时，很少有人会注意到这些藏在芯片内部的“冷却塔”“通风管道”。但正是这些看似不起眼的技术突破，才让AI的算力能持续提升。

算力的边界，其实是散热的边界。未来，AI芯片的竞争，会越来越变成散热技术的竞争——谁能把热量更快地排出去，谁就能在AI的赛道上跑得更远。

毕竟，再强大的算力，也敌不过一颗发烫的芯片。

被热量锁住的AI算力

芯片里的“热量高速公路”

散热战场的隐形竞赛

评论