“芯片百家争鸣”会阻碍AI发展吗？

不会。短期看，“百家争鸣”会带来一点磨擦——工具链不统一、运维更复杂、模型算子兼容性要补课——但AI的主战场正从极限算力转向“成本/能耗/延迟”。这恰好需要架构多样化：训练继续依赖GPU/TPU的规模并行，推理解耦给SRAM近存算、低精度ASIC等专用器件，把decode阶段做快做省。一些专用推理芯片的公开演示已把常见LLM的每token延迟压到个位毫秒、能效提升数倍，这直接转化为更低的单位Token成本与更高的服务确定性，也缓解HBM与高端GPU的供给瓶颈。更重要的是，软件层正在“把差异下沉”：StableHLO/ONNX等通用IR、OpenXLA/TVM/Triton等统一编译栈，以及vLLM、ONNX Runtime、TensorRT-LLM等多后端推理引擎，让同一模型在不同芯片间迁移的工程成本迅速下降；K8s/Ray与云厂商的设备插件把“混合调度”变成常态——prefill上GPU，decode下专用推理器。只要行业继续在通用算子集、IR与数据中心互连上收敛，多元芯片不是阻碍，而是压降成本曲线、突破功耗天花板、加速产品落地的推进器。

AI的“电费”会拖慢人类未来吗？

不会拖慢，但会改写赛道。短期看，“电费”会卡住AI扩张的节奏：并网排队动辄3—5年、局部电价走高会压缩毛利并迫使限流；可从总量看，即便到2030年数据中心用电占比涨到约5%，仍难以撼动电网与宏观经济。对头部玩家而言，电力在推理TCO中的占比低于硬件折旧与HBM/封装，真正的闸门更多在供应链而非电价本身。决定速度的是适配与重构。每瓦Token产出正沿两条曲线提速：算法与架构（低比特、稀疏化、MoE、投机解码与KV优化）让“算得更少”，系统工程（PUE由1.6降至≤1.2、液冷、800V直流与整机柜互联）让“耗得更低”；叠加就地能源（核能/燃料电池/风光直签PPA）与把AI当可中断负荷去吃“弃风弃光”。结果不是刹车，而是版图迁徙、价格分层与更多端侧/离线分担。电费不会拖慢人类未来，它只会重新定价：谁更高效，谁更靠近能源，谁就跑在前面。

算力“军备竞赛”会撞上物理极限吗？

短期看不会撞上一面“硬墙”，但多重天花板正在同时下压。功耗与散热先到拐点：单颗AI芯片已从700W上探至1200W，路线图指向>2kW；机架密度逼近100kW；到2030年数据中心用电或翻倍至>1000TWh。其次是内存与I/O墙：HBM带宽达数TB/s而企业级SSD仅数GB/s级，数据搬运成为主耗能与主瓶颈。再者是互连与光速极限（跨机房百米即微秒级延迟），以及光刻罩版、先进封装与HBM产能的硬约束，令“再堆几柜GPU”的边际回报迅速下滑。突围不在蛮力，而在把每个token的“焦耳数”打下来。硬件侧，以SRAM/存算一体的专用推理ASIC减少数据移动，3D堆叠与光互连放大近距带宽；两相液冷与芯片内微流体把散热效率最高做至冷板的数倍，为2kW时代留出热预算。软件侧用稀疏化、MoE、量化、推测解码、KV压缩与语义缓存“虚增”有效算力。真正的天花板会把竞赛从“算力规模”切换到“能效与系统协同”，胜负看J/token与TCO，而非单卡峰值。

新知 - 大圆镜｜AI算力成本战：SRAM芯片正在挑战英伟达

对抗知识焦虑，从看懂这条开始

App 下载

被GPU卡住的推理命门

你可以把AI模型的运行拆成两个阶段：训练是「教AI做题」，需要海量算力同时运算；推理是「让AI答题」，要根据用户输入逐字生成答案，这过程像你翻书查资料——每写一个字，就得跑回书架找对应的内容。

传统GPU的问题就出在这里。它用的DRAM（动态随机存取存储器）像放在书房另一头的大书架，容量大但离书桌远，每次取资料都要跑老远，不仅慢，还费力气（也就是功耗）。尤其是推理的「答题」阶段，AI要逐字调取模型权重，DRAM的带宽瓶颈会让GPU的算力直接浪费掉70%以上——就像你明明能一秒写10个字，却要花9秒在跑路上。

这就是为什么2025年，多家头部AI公司的推理成本远超预期，毛利率被硬生生啃掉了一大块。OpenAI和Anthropic的财报里，「服务器与芯片开支」成了最刺眼的项目：一台H100 GPU每小时租金2美元，生成100万个token就要烧掉3美元，而用户输入100万个token的成本才0.003美元——输出成本是输入的1000倍。

SRAM：把书架搬到书桌旁

SRAM的出现，相当于把整个书架直接钉在了书桌桌面上。

它的核心结构是6个晶体管组成一个存储单元，不用像DRAM那样靠电容存电、反复刷新，读取速度能达到1纳秒——是DRAM的10到15倍。更关键的是，SRAM可以和计算单元做在同一块芯片上，数据不用再跨芯片传输，带宽能跟着计算单元的数量线性增长。比如NVIDIA最新的Blackwell GPU里，单个计算核心的SRAM缓存带宽能到37.5TB/s，是HBM3e内存带宽的4倍多。

但真实的机制比这个类比更精确：

SRAM的单位面积容量只有DRAM的1/5到1/6，1平方毫米只能存38Mb数据，而HBM能存200Mb——就像桌面书架的容量永远比不过书房大书架。

它不用刷新，也没有DRAM的行激活延迟和银行冲突，带宽利用率能接近理论峰值，在推理的「逐token生成」阶段，能效比能比GPU高3到5倍。

这就是为什么那些初创公司会赌上全部身家做SRAM架构芯片。英国的Fractile宣称，他们的芯片能让推理速度达到GPU的100倍，成本降90%；Groq的LPU芯片靠230MB的SRAM，实现了80TB/s的带宽，比HBM3e快10倍。这些数字不是画饼——当Anthropic的用户因为算力不足被限制高峰使用时，SRAM芯片的低延迟特性，恰恰能解决最让用户抓狂的「卡顿」问题。

供应链的暗战：不只是成本

Anthropic找上Fractile，本质上是在打一场供应链的「去垄断战」。

过去几年，英伟达靠着GPU和CUDA生态占据了AI芯片市场90%以上的份额，黄仁勋甚至敢说「没有我们的芯片，AI公司活不下去」。但当AI公司的年芯片开支达到数百亿美元，没人愿意把命运攥在一家供应商手里。Anthropic早就开始布局：和谷歌签大额芯片订单，能在谷歌云之外使用；和亚马逊签1000亿美元的长期协议，锁定Trainium芯片的算力；现在又找上Fractile——不是要完全替代英伟达，而是要在谈判桌上拿到更多筹码。

这背后还有更现实的供应链安全考量。台积电的先进制程产能已经排到了2027年，三星的罢工、内存芯片的涨价，随时可能让AI公司的算力计划泡汤。而SRAM芯片的另一个优势，是它对先进制程的依赖没那么高——Groq的LPU用的还是14nm工艺，照样能实现超高带宽。这意味着它的供应链更分散，不会被「卡脖子」。

当然，SRAM不是万能药。它的容量瓶颈决定了它只能做推理，做不了训练；而且它需要软件层显式管理数据布局，不像GPU那样能自动缓存——这对AI公司的技术团队又是新的挑战。但在「活下去并盈利」的压力下，这些挑战都成了值得啃的硬骨头。

当我们谈论AI的未来时，总爱说「模型越大越好」，但真正决定AI能不能走进普通人生活的，是「推理的成本能不能降下来」。SRAM芯片的出现，不是要颠覆GPU，而是要补上AI商业化的最后一块拼图——让AI公司不用再为每一个token的输出烧钱，让用户不用再为高峰时段的卡顿买单。

算力的本质，从来不是比谁的芯片更强大，而是比谁能把每一分算力都用在刀刃上。当书架终于搬到了书桌旁，AI的盈利故事，才真正开始。

被GPU卡住的推理命门

SRAM：把书架搬到书桌旁

供应链的暗战：不只是成本

评论