AI芯片越新越没人要，为什么？

因为市场买的是“确定性”，不是“最新”。新架构一来，驱动、编译器、内核库、NCCL拓扑到位要几个月，FP4/FP6等新精度也要重做校准和训练配方；社区的复现实践、故障手册和最佳参数都还没沉淀。更糟的是，Blackwell 这代还牵连机架功耗、冷却、NVLink/NVSwitch与网络拓扑的改造，集群调度也要重适配。对追SLA的甲方和云厂商，峰值算力不如“今天就能稳跑”的确定性更值钱。算经济账也不划算。主流需求已转向推理与微调，瓶颈更多在显存与每token成本，H100/H200的成本曲线与性能画像最可预期；而新卡首发溢价高、供货不稳、合规与交付不确定，财务模型难通过。同时，大客户握有大量旧卡长约与未折旧资产，立刻置换意味着真实的机会成本。结果就是：新卡性能领先，但在“可用性—ROI可预期—生态成熟度”三角里输在时机。还有结构性错配：HPC用户要FP64，新一代为AI牺牲了这块；云侧异构度上升会拖累调度与利用率，运营更愿意扩同构H100池子把利用率拉满。等到软件栈、配套网络和成本模型消化完，新卡才会真正火起来。

算力被大量闲置，谁在为泡沫买单？

真正在为闲置算力买单的，不是“卖铲子的人”，而是三类沉默的大多数。第一批是下游客户与开发者：云厂商锁年合约、最低消费与配额稀缺把低利用率成本转嫁到账单和API价格上，头部模型服务已多次上调费率；你抢不到卡、或者用到倒挂价的H100/H200，实质都在替别人的空转与囤积埋单。数据上看，大型集群GPU利用率常年个位数，MFU甚至仅11%，浪费被摊进你的每一次推理与训练。第二批是纳税人与城市：补贴、低电价和“算力券”托举了上架率不足58%、PUE高达2.5的机房，国内每年因闲置造成的直接损失超500亿元；2026年一季度已有15%的中小智算中心资金链断裂，折旧、电费与金融成本最终变成财政压力与电网外部性。最后是资本与公众投资者：风投在AI上的投放已近2000亿美元，二级市场高估值承接了“先囤后用”的长约冒险，巨额预付算力合同与收入错配像极了上一轮结构化泡沫。回报兑现不了时，埋单的是LP、股民与被挤出的真实技术投入。结论很残酷：闲置不只烧钱，它通过价格、财政与资本链条，层层传导到每个用AI的人身上。

没有算力，我们会是AI时代的新文盲吗？

不一定。没有自有大集群，你确实很难参与SOTA级预训练，但“AI素养”的门槛正在从“有几张卡”转向“把AI用对”。云端API、无服务器推理把重算力藏在平台里；本地NPU与消费级GPU已能稳定跑3–7B的4/8bit量化模型，叠加RAG、工具调用、蒸馏和LoRA，往往比“堆更大模型”更高产出。更现实的是，很多团队的GPU利用率低到两位数，说明会调度、会压缩比多拿卡更值钱。被真正筛掉的，其实是只会“烧卡”的人。想不被边缘化，抓住两条主线：用独有数据与清晰场景做护城河（数据治理+检索增强让小模型也能打）；把系统效率拉满（量化/蒸馏/PEFT、异步队列与抢占式实例、存算解耦），用1/3的预算交付同等SLA。同时把评测、安全与合规做成工程习惯，用“API+本地轻量模型”的拼装式架构快速落地。所以，算力荒会带来不平等，但“新文盲”不是没卡的人，而是不懂把模型变成可靠产品的人。没有一柜H100，依然能做出赚钱的智能体、垂直助手与行业系统；缺的是工程与数据能力，而不是GPU本身。

新知 - 大圆镜｜卖铲子的没铲子，AI创新卡在算力死循环里

对抗知识焦虑，从看懂这条开始

App 下载

不是缺芯片，是算力卡在了死循环里

你可以把AI算力市场想象成一个拥堵的停车场：车位明明有不少，但一半被人占着却不开车，剩下的空位被几百辆车围着抢。Cast AI的报告显示，大企业GPU集群的平均利用率只有5%——相当于100个车位里，真正在使用的只有5个。马斯克的Colossus算力中心，模型算力利用率也仅11%。

这不是企业不知道浪费，而是不敢放手。当云销售打电话说“只剩36张卡，签一年长约，后面还有五家等着”时，没人敢说“我不需要”。先抢下来再说，哪怕闲置也绝不释放——因为交出去的卡，可能再也拿不回来了。这种“错失恐惧症”制造了囤积，囤积又加剧了短缺，短缺再放大恐慌，形成一个闭环的死循环。

更关键的是，算力的流动性彻底枯竭了：它锁在企业的长约里，困在云厂商的容量池里，但就是出现在普通开发者今晚能点开的购买页面上。英伟达高管Robert Ober一针见血：“算力短缺不是因为没有GPU，而是因为它们被长期锁定在合同里，无法快速释放。”

旧卡卖过新卡，算力市场的真实逻辑

你可能会奇怪：新一代B200 GPU性能更强，为什么H100、H200的租赁价格反而更高？半年里H100的租金涨了40%，现货价格是两年前的两倍，甚至比B200还贵。

答案藏在“确定性”里。对于推理服务、代码Agent、小模型复现这些海量需求来说，最先进的芯片从来不是首选。做工程的人都懂：真正值钱的是“好用”——H100的生态足够成熟，别人的基准测试用它，调参经验有人踩过坑，跑起来不出错；而B200再强，也需要时间适配框架、调试集群，这些都是看不见的成本。

就像你不会为了最新款的烤箱，放弃用了十年的旧锅——哪怕旧锅不如新烤箱先进，但它能精准烤出你要的温度。现在的算力市场，不是按“谁更新”定价，而是按“谁能马上用、不出错”定价。旧卡本该退场，却因为“确定性”成了刚需，进一步挤压了新卡的流通空间。

算力成了筛选器，创新生态正在分化

AI民主化的口号喊了很久，但算力正在把这个理想撕成两半。

开源模型确实降低了技术门槛——你可以免费下载Meta的LLaMA权重，但要复现一次实验，可能需要8×H100跑上几天。Andrew Ng曾说“AI是新的电力”，但现在看来，这更像是“只有少数人能用上的电力”。AI大神Andrej Karpathy吐槽，录制教学视频时才发现，让学员“启动一台8×H100服务器”，就已经把90%的人挡在了门外。

大厂里，非盈利的基础研究项目在和付费客户抢资源；围墙外，独立开发者连租卡的资格都没有。华盛顿大学教授Oren Etzioni说：“在谷歌内部，每一块TPU的背后都有三位竞争者。”那些不能直接带来收入的项目，那些想探索新方向的研究员，正在被算力筛选出去——要么转向能赚钱的项目，要么离职创业。

这种分化正在重塑创新生态：头部企业拿着算力迭代旗舰模型，创业公司靠融资买算力试错，而普通开发者只能在“用本地Mac硬跑小模型”的边缘挣扎。

当我们谈论AI算力短缺时，我们谈论的从来不是芯片不够用，而是资源分配的失衡——是囤积的闲置算力，是流动性的枯竭，是“确定性”压倒“创新”的现实。

算力正在从基础设施，变成一种权力：它决定谁能做研究，谁能搞创新，谁能在AI赛道上拿到入场券。而打破这个死循环的关键，或许不是造更多芯片，而是让已有的芯片流动起来——让闲置的算力进入市场，让普通开发者能拿到稳定的资源，让探索未知的项目不必为了生存向商业妥协。

算力的本质，应该是创新的燃料，而非筛选的门槛。

不是缺芯片，是算力卡在了死循环里

旧卡卖过新卡，算力市场的真实逻辑

算力成了筛选器，创新生态正在分化

评论