当AI用上“中国芯”，世界会怎样？

当AI全面用上“中国芯”，首先是价格曲线被改写。以昇腾等NPU承载万亿级MoE与百万token长上下文，推理时延已落到约10–20ms，API单价被压到美系闭源的十分之一量级，私有化部署成本也接近十分之一。金融、政务、医疗等高合规行业能在本地合规跑长链Agent与超长RAG，过去“演示级”的能力开始规模化进生产。更深的变化是格局多极化与供给更韧性。国产加速卡占比持续抬升，单一供应商的定价权被稀释；中国开源大模型被海外工具链大规模集成，倒逼闭源阵营加速降价与更新。与此同时，算子与精度标准（如FP8/FP4、CANN/NeuWare等）将与CUDA长期并存，短期带来迁移与运维成本上升，高端极限性能仍有差距，但算力与数据中心会向低电价、低碳区域外溢，扩散到中西部与全球南方，AI从“贵的奇技”真正变为“便宜的基础设施”。

AI巨头为何“抄作业”抄成队友？

本质上是开源与算力经济学把对手推成了“队友”。万亿级训练贵到疼，谁先把底座啃透，谁的方案就成公共积木：Kimi把DeepSeek的MLA拿来做长上下文，DeepSeek再把Kimi的Muon拉来训V4，token效率翻倍、训练成本砍半；V4把百万上下文的FLOPs压到上代的三成、KV到十分之一，这类硬骨头一旦被啃开，另一家直接复用，少花冤枉钱也少踩雷。生态在“奖惩”这种收敛：OpenRouter、Cursor之类更偏好稳定、便宜、可替换的底座，逼着路线同质化；API便宜一个数量级的模型更容易被大规模集成，越多人用，越需要兼容彼此的优化器、注意力与KV布局，抄着抄着就形成事实标准。资本与合规也在推手：同一批机构两边下注，要的是指标可比、接口可换；国产芯片适配要一起把FP8/FP4、算子库、vLLM整栈打通，单家啃不动。于是竞争重心上移到数据、Agent编排与产品速度，底层互抄、上层对决——这就是“队友式竞争”的商业理性。

AGI竞赛的终点，是新世界还是泡沫？

既不是非黑即白的终点，更像一条分水岭：谁把“会聊”变成“会做”，并把成本线压到业务能承受，谁就先抵达“新世界”。迹象已出现——万亿级MoE配合二阶优化把效率推高，百万token让合同与代码库被一次性咀嚼，API单价跌到美分级，国产芯片开始可用，Agent在编程与工具链基准里已逼近第一梯队。但另一侧确有泡沫阴影：长链任务一致性仍脆，幻觉与合规开销吞噬ROI，MoE在大规模服务下的负载与稳定性不稳，能耗与HBM供给成硬顶，资本FOMO把估值与收入拉出剪刀差。接下来12–18个月三件事会给出答案：推理毛利能否转正且持续改善，任务完成率与引用准确率能否稳定复用，非英伟达硬件与私有化能否成规模落地。结论不在口号里：把“做事范式”的可靠性与单位经济学跑通，终点就是新世界；跑不通，泡沫会自我清算。

新知 - 大圆镜｜算力卡脖子下，两家中国公司跑出AGI新路径

对抗知识焦虑，从看懂这条开始

App 下载

把大模型拆成“专家团”的魔法

传统大模型像个全能选手，处理任何任务都要调动全身所有“脑细胞”——哪怕只是写一段代码，也要激活全部万亿参数，不仅费电，还容易卡壳。而这两家团队用的MoE混合专家架构，相当于把大模型拆成了上百个“专业小组”：写代码时只唤醒编程专家，解数学题时就调用逻辑专家，每个任务最多只激活1/10的参数。

你可以把它想象成一家高效的咨询公司：客户来了不用全员开会，前台（路由器）会根据需求直接对接对应部门的专家，既节省时间又降低成本。实际数据更直观：同样是万亿参数规模，MoE模型的训练成本只有传统密集模型的1/5，推理速度却能提升3倍。

但这背后藏着一个技术难题：怎么让“前台”精准分配任务，避免某些专家忙到崩溃，另一些却闲得发慌？他们给路由器加了个“负载均衡器”，如果发现某个专家被调用得太频繁，就会稍微降低它的优先级，强迫任务分流到其他专家那里。就像公司里的项目分配，既要让专业的人做专业的事，也要保证每个人都有活干。

从互相“抄作业”到协同进化

如果说MoE架构是他们突破算力瓶颈的第一步，那接下来的技术复用更像是一场心照不宣的协作。其中一家团队先搞出了MLA多头潜在注意力机制——简单说就是给AI的“短期记忆”做了个压缩包，原来要占100M内存的上下文信息，现在只需要10M就能存下，还不影响AI理解内容。另一家团队看到后直接把这个机制用到了自己的长文本模型里，瞬间解决了百万token上下文的内存爆炸问题。

没过多久，后者又推出了Muon二阶优化器，把AI的训练效率又提了一倍——相当于让学生做一套题就能掌握原来两套题的知识点。前者也很快跟进，把这个优化器用到了新一代模型的训练中。

这种“你进步我跟进”的模式，让他们的技术迭代速度比单打独斗快了30%。一位研究员说，他们甚至不需要刻意交流，看对方的论文就知道下一步该往哪走，“就像两个一起爬山的人，你拉我一把，我扶你一下，谁也不想被落下”。当然，这种协同也有局限：目前他们的底层架构还主要依赖国外芯片，虽然已经开始适配国产硬件，但要实现完全自主还有2-3年的路要走。

资本围猎下的慢公司坚持

当同行们忙着靠AI聊天工具抢流量、赚快钱时，这两家团队却在做“吃力不讨好”的事：一个坚持开源所有核心技术，哪怕被别人拿去做商业产品；另一个把90%的资金都砸在底层架构研发上，连个像样的C端产品都没有。

2026年，其中一家团队启动首次外部融资，估值直接冲到200亿美元，但他们拒绝了某互联网巨头的投资——对方要求必须把技术优先给自家产品用。另一家团队更绝，创始人直接在内部信里说：“账上还有100亿，未来3年不考虑盈利，先把AGI的基础逻辑搞清楚。”

这种“反商业”的坚持，反而让他们成了资本眼里的香饽饽。一位投资人说：“现在的AI公司要么靠流量讲故事，要么靠技术赚快钱，但只有他们在做能改变行业规则的事——就像当年的特斯拉，不是造了一辆更好的燃油车，而是直接换了赛道。”

知春路的风吹过两家公司的办公楼，窗台上的绿植在夕阳下投下重叠的影子。没人知道他们谁会先摸到AGI的门槛，但可以肯定的是，他们已经走出了一条和美国同行不一样的路：不是靠无限的算力堆出超级模型，而是用架构创新把有限的资源用到极致。

当所有人都在讨论AI能赚多少钱时，这两个团队还在纠结“怎么让AI更高效地思考”。这或许就是中国AGI最珍贵的地方：在资本的喧嚣里，还有人愿意慢下来，做一些真正改变未来的事。

算力受限不是终点，而是创新的起点。

把大模型拆成“专家团”的魔法

从互相“抄作业”到协同进化

资本围猎下的慢公司坚持

评论