对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
API定价|批处理效率|GPU机架|谷歌TPU架构|Reiner Pope|大语言模型|人工智能
当你在聊天框敲下一句话,AI给出回复的成本可能相差1000倍——这不是模型智能的差距,而是你是否恰好“凑够了拼车人数”。曾主导谷歌TPU架构的工程师Reiner Pope,最近在黑板前用方程式拆解了顶级大模型的底层逻辑:从GPT-5的训练规模,到DeepSeek V3的专家数量,再到API定价里藏着的秘密,所有答案最终都指向两个硬件现实:一个机架能塞多少GPU,以及一次能攒多少用户请求。这些细节一旦戳破,你会突然明白:AI的能力、价格甚至未来的天花板,从一开始就被硬件的物理规则锁死了。
你可以把大模型的专家层想象成一家连锁餐厅——每个“专家”是一个厨房,负责处理特定类型的订单。为了让出菜最快,所有厨房最好都在同一个商场里,走几步就能互通食材;如果厨房分散在不同城市,光送食材的时间就能让客人跑光。

这就是混合专家(MoE)模型的现实困境:每个专家需要放在单独的GPU上,而GPU之间的通信速度,在同一个机架内和跨机架能差8倍。目前主流的英伟达GB200 NVL72机架能塞72块GPU,通过NVLink高速互联,任意两块GPU之间最多只需要经过一次中间交换机;但一旦跨出这个机架,通信带宽会断崖式下跌,专家之间的token传递会慢到无法忍受。

这就解释了为什么顶级MoE模型的专家数量始终卡在机架的GPU数量上限——DeepSeek V3的256个专家,其实是把4个72-GPU机架的资源拼到了一起,每次推理只激活其中32个。而谷歌能更早做出大模型突破,核心是他们的TPU集群能在更大范围内实现高速通信,相当于拥有一个能装下更多厨房的超级商场。
但物理边界始终存在:只要跨机架通信的8倍差距没解决,大模型的规模就永远跳不出单个机架的手掌心。
你有没有过这种经历:深夜打车,因为没人拼车,车费比平时贵好几倍?大模型的推理成本,本质上就是拼车的逻辑——如果一次只服务你一个人,成本可能是拼车时的1000倍。
GPU推理的固定成本,是把模型权重从内存读到计算单元里,这个过程不管服务1个用户还是2000个用户,只需要做一次。如果只有你一个用户,所有固定成本都得你承担;但如果能攒够2000个并发请求,成本就会被摊薄到几乎可以忽略。
Reiner Pope给出了一个反直觉的公式:最优批处理规模约等于300乘以模型稀疏度。比如DeepSeek V3每次只激活1/8的专家,最优批处理规模就是2400个并发序列——这个数字和模型参数总量无关,只取决于硬件的计算和内存带宽比。
但这里有个绕不开的瓶颈:KV缓存。它存储着每个用户的对话历史,相当于每个人的专属点餐记录,根本没法和别人共享。这就是为什么“慢速模式”没法大幅降价——就算你愿意等,每个人的专属记录还是要占内存,没法通过攒更多人来摊薄成本。
你可能没注意过,大模型的API定价里全是硬件的悄悄话。比如Gemini在20万token处涨价50%,这个节点恰好是KV缓存的内存带宽成本超过计算成本的转折点——意味着模型从“计算不够用”变成了“内存不够用”。Reiner Pope甚至用这个价格反推出了Gemini的注意力机制参数,和公开论文的数据几乎完全吻合。
再比如输出token比输入贵3-5倍,这背后是两个阶段的瓶颈差异:输入阶段可以一次性并行处理大量token,像食堂阿姨一次性打10份饭,效率极高;但输出阶段只能逐字生成,每生成一个token都要读一遍整个模型权重和KV缓存,像给一个人单独做饭,每道菜都要重新开火,成本自然高得多。

还有缓存命中能便宜10倍,这对应着不同内存层级的成本差——从高速内存里读缓存,比重新计算一遍要便宜得多。甚至有工程师发现,有些服务商的长时间缓存用的是机械硬盘,这个细节也藏在了定价里。
更有意思的是“过度训练”的经济学:GPT-5的预训练数据量是理论最优值的100倍,这不是浪费,而是为了让模型在推理时能应对各种复杂场景——毕竟训练花的钱,最终会通过海量的推理请求赚回来。
当我们惊叹AI能写诗、能编程、能解决复杂问题时,很少有人会想到,这些智能的边界,其实是由一个机架能装多少GPU、一次能攒多少用户请求这些最朴素的物理规则决定的。
硬件为AI设定了天花板,软件则在这个天花板下挖深了效率的底线——批处理让成本降到了普通人能用得起的程度,MoE架构让模型在有限的硬件里塞进了更多智能,而API定价则把这些硬件和软件的逻辑,明明白白地写在了价格标签上。
硬件定上限,软件决效率。未来AI的突破,或许不会是突然出现的“超级模型”,而是在物理规则的边界里,找到更巧妙的协同方式——就像在有限的商场里,设计出能容纳更多厨房的动线,或者让拼车的效率再提高一点点。