芯片越贵，英伟达的王座越不稳？

不一定。短期看，“越贵”反而加固英伟达：供需紧+提价带来更厚现金流和更强议价力，整机柜GB/VR方案把客户锁在自家生态里。但价格是最好的替代剂。中国市场已给出先行信号：政策与性价比叠加，2025年国产加速卡出货占比已到四成，机构预期2026年英伟达在华份额或降至个位数；DeepSeek V4在昇腾上完成实战加速，950PR用FP4把H20拉开至2.87倍，这些都在降低对英伟达的“不可替代性”。真正的杠杆在“每个token的成本”。HBM、液冷与机电上行抬高全栈TCO，云厂商顺势涨价，用户转而用MoE、FP4量化、KV压缩和稀疏长上下文来“少卡跑更多”，同时代理式AI把压力外溢到CPU，形成对GPU的需求弹性。如果英伟达能用Blackwell/Ultra与LPU继续把单位token成本压降、并缩短交付周期，王座会更稳；若价格高而交付慢，国产NPU与超大厂自研（TPU/Trainium/Maia/MTIA）将更快蚕食份额。换言之，稳不稳，不看贵不贵，看“算得更便宜、来得更快”。

华为昇腾，是AI界的“安卓时刻”吗？

短答：在中国市场的很多场景里，昇腾正在逼近“安卓时刻”，但放到全球还差临门一脚。拐点的证据已经冒头：DeepSeek V4在昇腾NPU上通用推理提速1.5—1.96倍，昭示顶级模型“原生跑通”的可行性；面向推理的昇腾950PR用FP4把同显存模型规模放大至4倍，单卡推理性能对H20提升约2.87倍，叠加112GB HBM与低Token成本，正好踩中IDC所指2026年“推理>70%”的大周期。更关键的是供给与生态在中国形成合力——政策、资金与智算中心铺设推动国产替代，机构预计2026年本土AI加速卡出货占比过半，华为在国内份额有望冲至约50%。但要称“安卓时刻”，还需跨过三道坎：开发者从CUDA迁移的隐性成本与心智路径，训练侧超大规模稳定性与工具链成熟度，以及HBM/先进封装等供应瓶颈。全球云巨头与主流AI框架仍深绑CUDA，Blackwell生态势能犹在。结论是——中国To B市场已现“安卓式”拐点，全球层面更像“开发者预览版”，还需要两三代硬软协同与更多原生应用来封印胜局。

AI世界会分裂成两个平行宇宙吗？

会，但更像“半透”的双轨世界。算力与Token正在把用户分层：智能体任务单次耗费是对话式AI的几十到上百倍，国内日均Token已超140万亿，云与模型全面涨价（部分涨幅至4倍以上），HBM/DRAM供给吃紧、价格大涨，巨头以千亿级资本抢产能。结果是少数前沿用户握有超长上下文、强工具链与专属吞吐，多数人被限额、排队、降配。但底层也在对冲分裂。DeepSeek V4在昇腾上通用场景提速1.5—1.73倍、延迟场景最高近2倍；昇腾950PR以FP4将单卡推理效率抬到H20的2.87倍、成本更低；CANN Next引入SIMT吸引CUDA生态，API与vLLM适配降低切换成本，开源模型一度拿下近30%流量。更可能的结局是“长期双轨”：高端Agent云与普惠高效云并存，胜负取决于HBM扩产、模型稀疏化和Agent效率谁跑得更快。

新知 - 大圆镜｜算力租金涨48%，AI抢的不只是显卡

Q: 华为昇腾，是AI界的“安卓时刻”吗？

短答：在中国市场的很多场景里，昇腾正在逼近“安卓时刻”，但放到全球还差临门一脚。 拐点的证据已经冒头：DeepSeek V4在昇腾NPU上通用推理提速1.5—1.96倍，昭示顶级模型“原生跑通”的可行性；面向推理的昇腾950PR用FP4把同显存模型规模放大至4倍，单卡推理性能对H20提升约2.87倍，叠加112GB HBM与低Token成本，正好踩中IDC所指2026年“推理>70%”的大周期。更关键的是供给与生态在中国形成合力——政策、资金与智算中心铺设推动国产替代，机构预计2026年本土AI加速卡出货占比过半，华为在国内份额有望冲至约50%。 但要称“安卓时刻”，还需跨过三道坎：开发者从CUDA迁移的隐性成本与心智路径，训练侧超大规模稳定性与工具链成熟度，以及HBM/先进封装等供应瓶颈。全球云巨头与主流AI框架仍深绑CUDA，Blackwell生态势能犹在。结论是——中国To B市场已现“安卓式”拐点，全球层面更像“开发者预览版”，还需要两三代硬软协同与更多原生应用来封印胜局。

对抗知识焦虑，从看懂这条开始

App 下载

从卖显卡到卖token：算力计价的底层逻辑

你可以把AI模型想象成一个超级印刷厂，token——就是AI处理的最小语言单位，比如一个字、一个词——就是印刷厂的纸张。以前AI只需要印传单，用普通纸就行；现在要印全彩画册、甚至3D立体书，不仅纸要更高级，用量还翻了几十倍。OpenClaw这类多模态模型的普及，让全球token消耗量在一年里涨了130倍，直接把印刷厂的“纸”给抢空了。

而GPU，就是印刷厂的印刷机。以前按“台”卖机器，现在变成按“小时”卖印刷时间——这就是算力租赁的本质。但租金的涨跌，早就不是由显卡的制造成本决定了：它看的是你要印的“书”有多复杂，要消耗多少“纸”，以及市面上还有多少空闲的“印刷机”。

一组更直观的数字：现在训练一个顶尖大模型，要消耗的算力相当于10万台H100显卡连跑一年；而全球能投入使用的H100，满打满算也不到百万台。当需求的增长速度是供应的10倍，租金的上涨就成了必然。

产业链的紧绷：从台积电到“算力二房东”

这场算力荒的传导链，从最上游的芯片制造就开始了。台积电董事长魏哲家说，AI芯片的需求已经“把所有设备都调动起来”，但供应还是紧张——他们的3nm生产线24小时连轴转，订单已经排到了2028年。英特尔CEO陈立武则直接放话：半导体行业的潜在市场规模，已经逼近1万亿美元，而AI就是最大的增长引擎。

芯片不够，租赁市场就成了“算力黄牛”的舞台。现在的租赁市场分成了三层：大型云厂商握着最核心的GPU资源，只给大客户签3年以上的长约；专业租赁商像“二房东”一样，把整批租来的显卡拆成小时段转租给中小客户；甚至有人把闲置的家用GPU也挂到平台上，凑成分布式算力池。

但这种“灵活”的背后是浪费：Cast AI的报告显示，企业手里的GPU平均利用率只有5%，95%的资源都在闲置。一边是中小团队抢不到算力，一边是大公司把显卡囤在机房吃灰——这不是真的供应不足，而是算力资源的分配出了问题。

算力的未来：从稀缺到标准化的长征

现在的算力市场，像极了20年前的互联网——没有统一的计价标准，没有质量评级，甚至连一份靠谱的租赁合同都没有。你租到的H100，可能因为生产批次不同，性能差了38%；同样是“一小时算力”，不同平台的价格能差出10倍。

行业已经在试着改变：Trillium Technologies把算力使用权打包成证券化产品，在交易所挂牌交易；有些平台开始用“token消耗量”来计价，而不是单纯的时间。更重要的是，国产算力正在跟上——DeepSeek的新模型和华为昇腾完成适配，意味着未来市场不再只有英伟达一个选项。

但这些改变都需要时间。芯片厂的新生产线要3年才能投产，数据中心的电力扩容要等电网改造，统一的算力标准更是需要全行业协商。在那之前，算力的稀缺还会持续，每一次AI的进步，都还会让显卡的租金再跳一次。

当我们谈论AI的未来时，其实是在谈论算力的未来——它不是实验室里的技术参数，是每一个创业者的研发成本，是每一个AI用户的使用门槛，甚至是国家之间科技竞争的核心筹码。

英伟达的市值突破5万亿美元，不是因为它造了最好的显卡，而是它握住了AI时代最稀缺的资源。但稀缺从来都是暂时的，就像20年前没人会为了一条宽带线抢破头，未来的算力也会像水电一样成为基础服务。

算力的价值，从来不在显卡本身，而在它能驱动的创新。

从卖显卡到卖token：算力计价的底层逻辑

产业链的紧绷：从台积电到“算力二房东”

算力的未来：从稀缺到标准化的长征

评论