给AI一颗“中国芯”，有多难？

难点首先不在电路图，而在生态。英伟达用CUDA把硬件、数百个加速库和数百万开发者拴在一起；想替换，得把PyTorch算子、通信库、图编译、FP8/长上下文的KV-cache、MoE路由等整链条在国产硬件上重写并跑稳，在真实业务里既不降速也不掉点。这是一场“迁移成本战”，往往比硬件价差更致命。第二道坎在制造与封装。先进制程之外，真正的卡点是HBM与高密度封装：算力芯片离不开HBM3E和CoWoS这类被少数厂商把持的产能，良率、交期、带宽决定天花板；没有高可靠互连与高速SerDes，万卡集群根本拉不开。再叠加EDA/IP合规与供应链安全，任何一环抖一下，都可能让一代产品错过窗口期。就算芯片做出，也未必“可用可卖”。你得在万卡规模实现稳定训练与容错，提供可对标NCCL的通信能力、完善工具链与SLA，把TCO压过对手；还要面对出口管制与市场准入不确定性。现实是：本土出货份额虽已提升，仍以推理与场景化落地为主。要把“中国芯”真正装进AI的心脏，通常需要5–10年的持续协同投入与一场全产业链的耐心。

AI的心脏，需要一颗绿色的肺？

要。AI 的“心脏”（算力）离不开一颗“绿色的肺”（清洁电力与高效散热）。在大模型时代，电力与制冷能占数据中心总成本的40%-60%，这决定了每个 token 的边际成本与碳强度。把 PUE 从1.5拉到≤1.1，等效节电约25%-30%，配合液冷与自然冷源，单次推理成本还能再降10%-20%。以百卡级集群为例，五年TCO可从硬件主导转为“电费主导”，不装这颗“肺”，企业毛利和扩张速度都会被能耗掐住喉咙。更关键的是把“干净的气”吸进来并稳住呼吸：绿电直连与“源网荷储”把风光的波动驯化成工业级电源，既降碳又防停机；余热回收把废热变资产，未来在国内可覆盖超3亿平方米供暖。别忘了，训练一次 GPT-3 量级可排放数百吨二氧化碳，而推理阶段的累计排放常常更高，真正的大头在服务化之后，这正是绿色电力与液冷技术发挥杠杆的地方。判断这颗“肺”是否健康，有几个硬指标值得盯：PUE 是否稳定≤1.2，绿电比例是否可溯源并长期锁定，年均电价与需求响应能力是否对冲价格波动，液冷渗透率与机柜功率密度是否匹配迭代路线，余热回收是否形成现金流闭环；最终落到两件事——千 tokens 的成本曲线与碳强度曲线能否同时向下。能做到，AI 的心脏才跳得久、跑得快。

AI越省钱，为何反要猛盖房？

因为“越省越用”。算法和引擎把单次推理变便宜了，但万亿参数、百万级上下文把需求直接顶到天花板：上下文越长、并发越高、响应越快，消耗的不是便宜的FLOPs，而是最贵的那几样——稳定电力、低时延网络、超大内存与冷热分层存储。省下来的每一分，都会被更长的上下文、更低的延迟和更足的冗余立即“花掉”，总量反而暴涨。真正的账在TCO上。自建低PUE机房把能耗从1.5打到≈1.2，电力损耗省出20%+；绿电长协电价在内陆可到0.25–0.35元/kWh，对比一线>0.6元/kWh，电费直接腰斩。再把KV缓存做成GPU/DRAM/SSD/对象存储四级、PD分离定制网络，把GPU利用率从30%拉到70–90%，单位token再降三四成。这些都是只有“从比特打到原子”才能吃到的物理红利，云上难以极致优化。更深层的是战略控制权：锁定电力与机位，绕开供货与价格波动；把数据驻留在自有边界内，满足高合规行业；在网络拓扑、冷却与液冷密度上做“私房菜”，做出低延迟专家模式和超长上下文的可感知差异。当效率创新的边际递减，物理基础设施就成了新护城河——所以AI越省钱，越要猛盖房。

新知 - 大圆镜｜靠算法省成本的AI公司，跑去草原建机房了

对抗知识焦虑，从看懂这条开始

App 下载

从比特到原子，效率哲学的延伸

过去他们的效率革命，只发生在代码里：用稀疏专家混合模型让大模型“按需激活”参数，把每token的内存消耗压到行业的七分之一；靠多头潜在注意力压缩缓存，让长上下文处理速度翻番。创始人梁文锋那句“反对大力出奇迹”，曾是算法圈对抗硬件焦虑的口号——不用堆最贵的GPU，靠架构优化就能跑出顶尖性能。

但这一次，他们要把这套逻辑从比特世界推进到原子世界。自建数据中心，意味着要把“效率最优”从模型训练，贯穿到机房的每一个细节：从选址时的气温、电价，到建设时的机柜布局、冷却系统，再到运营时的电力调度、服务器利用率。他们要算的不再只是每一轮训练的算力成本，而是数据中心全生命周期的总体拥有成本（TCO）——从服务器采购到十年后报废的每一分钱都要抠到极致。

这是一场从“优化代码”到“优化物理世界”的延伸。就像一位厨师，过去只钻研怎么把有限的食材做出珍馐，现在要亲自去种粮、磨面，从源头控制每一份成本。

草原上的算力账：为什么是乌兰察布

他们最终把机房落在了乌兰察布——这片年均气温只有7℃的草原，是国家“东数西算”的核心枢纽之一。这里的优势，每一项都精准命中“TCO最优”的目标：

首先是免费的天然空调。数据中心的能耗里，冷却占了近三分之一，而乌兰察布的低温天气，能让数据中心全年大部分时间用自然风冷替代空调。这里新建数据中心的PUE（电源使用效率，越接近1越节能）能严控在1.2以下——而东部城市的数据中心，PUE通常要到1.5甚至更高。别小看这0.3的差距，一个10兆瓦的大型数据中心，一年就能省下近千万度电。

其次是白菜价的绿电。乌兰察布的风电、太阳能装机占比超过65%，电价低至0.32元/千瓦时，是北京的三分之一。对于24小时不间断运行的AI数据中心来说，电费占了运营成本的一半以上——每度电省一毛钱，一个超大规模机房一年就能省下上亿元。

更重要的是，这里已经是成熟的算力集群：华为、阿里的超大型数据中心早已落地，配套的电网、通信、运维产业链一应俱全。这相当于在一个成熟的工业园区里建工厂，不用从零修马路、铺管线，把自建机房的风险和门槛降到了最低。

算力的真相：算法的边际效益正在递减

这家公司的转型，本质上是踩中了AI行业的一个关键拐点：当算法创新的边际效益开始递减，算力就成了新的护城河。

过去十年，AI的进步靠的是算法突破：从CNN到Transformer，每一次架构革新都能让模型性能跳级。但到了万亿参数时代，算法能挖的潜力越来越有限——再精巧的架构优化，也很难弥补“没有足够算力训练模型”的差距。传闻中他们即将发布的V4模型，参数规模直奔万亿，上下文窗口突破百万token，这样的模型，没有足够的算力支撑，再厉害的算法也无从施展。

更现实的是，大模型的竞争早已从“训练出好模型”转向“低成本运行好模型”。推理阶段的算力消耗，是训练阶段的数十倍——用户每问一个问题，背后都要消耗算力。如果能把机房的运营成本降20%，就能在保持相同服务质量的前提下，把价格降15%，这在To C市场里是致命的竞争力。

当然，这条路也不是没有风险：自建数据中心是重资产投入，动辄数亿甚至数十亿，一旦行业风向变化，很容易变成沉重的包袱；而且数据中心运营是完全陌生的领域，从算法工程师到机房运维，隔的不是一个部门，而是一整个行业的经验壁垒。

当草原上的服务器开始轰鸣，AI行业的竞争逻辑正在悄悄改变。过去我们以为，AI的未来属于最会写算法的人；现在才发现，真正的玩家要能同时管好代码里的比特和机房里的原子。

这就像一场马拉松，前半程比的是爆发力（算法创新），后半程拼的是耐力（算力效率）。那些能把每一分算力都用到极致的公司，才能在这场长跑里笑到最后。

算力不是目的，而是让算法持续创新的底气。 当草原上的风带着服务器的轰鸣吹过，我们看到的不只是一个AI公司的转型，更是整个AI行业从“狂飙突进”到“精耕细作”的开始。

从比特到原子，效率哲学的延伸

草原上的算力账：为什么是乌兰察布

算力的真相：算法的边际效益正在递减

评论