亚马逊的芯片帝国，会是下一个苹果商店吗？

像“下一个App Store”？更像“下一块AWS式基础设施基石”。App Store是轻资产、规则+抽成驱动，毛利率极高；芯片是重资本、重电力、重供应链的工业品生意，周期长、折旧重、良率与制程代际牵一发而动全身。即便年化营收做到数百亿美元，其利润率结构也难复制App Store那种“抽成王国”的现金机器。但它有机会成为“算力的应用商店”。关键不在卖几架机柜，而在把硬件、编译器/SDK、托管服务与长期电力/产能合约捆成一体：让模型先在Neuron上优化，推理再在Bedrock跑，企业则签多年算力与维护订阅。这样能形成三层护城河——产能电力先占、软件栈黏性、生态优化路径依赖。弱点也同样清晰：跨平台可移植性在提升、NVIDIA/TPU/AMD并存，若性能/工具链体验不持续领先，网络效应就难闭环。看点在三处：Neuron生态的原生优先级（顶级模型与工具是否“先上先优”）、硬件销售的“附加订阅率”（运维/支持/托管绑定度），以及电力与机房的GW级扩张节奏。结论是——它更可能长成“下一柱AWS”，而非“另一个App Store”。抽成神话难复制，但算力控制权与长期现金流，足以改写行业权力版图。

亚马逊芯片为何要“拥抱”对手英伟达？

因为客户和生态不等人。大多数前沿模型与工具链首先为CUDA优化，迁移到Neuron仍要工程投入与验证周期；对时效敏感的前沿训练、对兼容性敏感的大型平台，短期离不开英伟达。AWS“拥抱”英伟达，才能把这些高价值工作负载稳住，再用Trainium切入更看重性价比、可预测的训练与推理场景。因为供给与交付是硬约束。AI需求长期大于产能与电力，单靠自研芯片难以兜底全量需求；锁定英伟达的稳定供货能平滑大规模交付，同时以Trainium对冲成本、缩短排队。行业也在走向异构算力：前沿训练多用GPU，规模化推理与固定架构用ASIC，在同一云上统一编排，既提效率也抬毛利。更因为这是一笔“以合作换定价权”的生意。手里既握海量GPU又握自研芯片，AWS在大单议价、产能分配与产品打包上更有腾挪空间；客户获得多供应商保障，锁定风险下降，更愿意签更长、更大的算力承诺。与其对抗，不如利用合作巩固份额，同时把成本曲线压下去。

AI算力的尽头，竟是发电站不够用？

短期看，是的：AI算力的天花板首先撞在“电与站”上。单园区动辄数百兆瓦、头部项目逼近吉瓦级负荷，而并网排队常以年计。多家电网运营商已警示，数据中心用电占比到2030年可能翻至约6%-9%，局部热点区域更早触顶；变压器与高压设备交付周期拉长、输电走廊紧缺，让新算力即便有钱也难“上电”。这不是“拉几根电缆”的问题，而是全链路掣肘：发电侧缺稳定基荷，电网侧扩容慢，负荷侧机柜功率密度从10-20kW跃迁到200kW以上，空气冷却退场、液冷与浸没式成为标配。于是解决路径被迫前移——锁定长期绿电与负荷跟踪电源（燃气轮机、地热、核能/SMR）、自建或共建微电网，同时在芯片与软件侧用低比特、稀疏化、近存算把每次推理的“用电票据”压到最低。结论很现实：决定AI曲线斜率的，不仅是芯片制程，而是LCOE与并网许可。谁能更快拿到稳定、便宜、可扩展的电，谁就拿到算力红利；反之，再多高端GPU和自研ASIC也会卡在发电站和变电站的门口。

新知 - 大圆镜｜亚马逊卖芯片了，要动英伟达的蛋糕

对抗知识焦虑，从看懂这条开始

App 下载

从云里的算力到手里的芯片

你可以把Trainium理解成一台专为AI训练量身定做的「超级计算器」——它不像通用GPU那样什么活都干，而是把所有性能都堆在AI模型训练这一件事上。2015年亚马逊收购以色列芯片公司Annapurna Labs后，花了8年磨出这把刀：最新的Trainium3用了台积电3nm工艺，单芯片FP8算力能达到2517 TFLOPS，搭配144GB的HBM3E内存，带宽是前代的1.7倍。

但真实的厉害之处不在单芯片，而在「攒局」的能力。Trainium3放弃了传统的环形网络，改用全互联交换架构，最多能把144颗芯片塞进一个液冷机架，整体算力相当于362 PFLOPS——足够支撑万亿参数级的大模型训练。更关键的是，它的成本比英伟达H100低30%-50%，这对被算力成本压得喘不过气的AI公司来说，几乎是无法拒绝的诱惑。

不过现在的Trainium还带着云服务的「胎记」：它只能通过AWS的云实例租用，客户碰不到物理硬件。而卖机架，相当于把这台超级计算器的钥匙直接递出去——企业可以把它放进自己的数据中心，不用再按月给云服务商交钱。

抢蛋糕的底气和隐忧

亚马逊敢挑战英伟达，手里握着两张硬牌：一是客户，二是成本。贾西提到的2250亿美元收入承诺里，光是Anthropic就锁定了1000亿美元的Trainium容量，OpenAI也签了1380亿美元的多年合同。这些客户不是小作坊，是每天都要烧几亿算力的AI巨头，他们的选择本身就是最好的广告。

但硬币的另一面，是绕不开的尴尬：亚马逊至今还在依赖英伟达的GPU支撑部分云服务。如果真的把芯片卖到市场上，等于和自己的「供应商」直接开战——万一英伟达收紧GPU供应，亚马逊的云业务可能先受影响。而且Trainium的软肋也很明显：它的软件生态和英伟达的CUDA比起来，还像个刚学会走路的孩子。

有开发者测试过，用Trainium训练CNN模型，速度是CUDA的2.3-4.9倍慢，成本甚至是3-5倍高；更麻烦的是，一些现代CNN架构因为硬件缓存限制，根本没法在Trainium上运行。亚马逊也在补这个短板：他们计划开源PyTorch后端、编译器和通信库，试图拉开发者入伙，但要追上英伟达400万开发者的生态，显然不是一朝一夕的事。

算力市场的新游戏规则

亚马逊卖芯片这件事，真正改变的不是芯片市场的格局，而是AI算力的「购买逻辑」。过去企业要做AI训练，要么租云服务商的算力，要么花大价钱买英伟达的GPU——现在多了第三个选择：买亚马逊的机架，自己搭算力集群。

这背后是AI公司的普遍焦虑：云服务的按次付费模式，长期算下来成本高得离谱；而英伟达的GPU常年缺货，有钱也未必能买到。Trainium的出现，相当于给市场打开了一个缺口：企业可以用更低的成本锁定长期算力，还能避开供应链的卡脖子问题。

但这条路也不好走。买机架不是买服务器，企业得自己解决散热、运维、模型迁移这些麻烦事——光是把一个训练好的模型从CUDA转到Trainium，可能就要花50个小时改代码。而且亚马逊自己也面临挑战：3nm工艺的良率不稳定，Trainium3的产能能不能跟上订单还是未知数；液冷机架的部署成本极高，不是所有企业都能负担得起。

当亚马逊把Trainium的机架推向市场时，它其实在做一件比卖芯片更重要的事：打破AI算力市场的「单一供应商依赖」。过去几年，英伟达的GPU几乎成了AI训练的代名词，所有公司都在跟着CUDA的规则走。而现在，终于有了一个能拿出真金白银客户的挑战者。

当然，亚马逊未必能立刻撼动英伟达的地位——CUDA的生态壁垒不是靠一款芯片就能打破的。但它至少证明了一件事：AI算力的未来，不该只有一种选择。「算力的竞争，最终是生态的竞争」，这句话放在今天，比任何时候都更有分量。也许用不了多久，我们会看到越来越多的企业，把不同厂商的芯片混在一起用——毕竟，能解决问题的算力，才是好算力。

从云里的算力到手里的芯片

抢蛋糕的底气和隐忧

算力市场的新游戏规则

评论