豪赌国产芯，DeepSeek在想啥？

不是情怀，是生意的底层算术。DeepSeek押国产芯，首先为的是供应链主权和规模确定性：国内调用量已到“英伟达不可承受”的级别，继续绑CUDA，价格战打不深、产品节奏也被掣肘。把V4迁到国产栈，叠加FP4/内存池/路由重写，能把单次推理的边际成本再压一截，把“每百万token”做成长期可守的成本护城河；更关键的是拿到软硬件联调的主导权，把MoE路由、KV Cache、Attention这类工程诀窍固化进工具链，形成难以复制的“工程资产”。这也是一场生态位豪赌。谁先在昇腾上跑出一线水准，谁就拿到标准话语权：算子优先级、框架路线、云厂商备货、行业采购默认都围着它转，分发与议价权随之而来。短期会付出迁移与稳定性的阵痛，舆论还会放大每一次故障，但一旦打穿，DeepSeek就从“价格屠夫”升级为“基础设施制定者”——对手仍站在别人的平台上，它把平台变成自己。就算最坏不及预期，这步棋也迫使英伟达/AMD给出更好条款，本身就是一张极具价值的期权。

不靠标准答案，AI怎么变强的？

不靠“标准答案”，靠“可验证信号”。先让模型自己多路作答，再用能程序化判分的检查器给出奖励：数学用求值器、代码用单测、事实问答用检索+蕴含判定；再按相对名次更新策略（如GRPO），不必训练庞大的价值网络。高分轨迹被回收成新一轮示范数据，形成自举循环；当题目没有唯一答案时，用偏好/宪法规则做成对比较或自评互评，依然能给出稳定学习信号。其次，把“过程”而非“结果”变成学习对象。用过程奖励模型鼓励拆解—反思—回溯的推理习惯；在训练和推理时都进行搜索，Best-of-N、Tree-of-Thoughts、辩论式重写，把更多计算换成更高成功率（增益通常随ln(N)增长）。再配上自动课程难度调度，让题目始终踩在能力边界；关键事实进外部记忆与检索库，推理中被调用并二次校验，减少幻觉。归根到底，是“可检验信号+多样化搜索+过程导向+自举数据”，而不是背答案。

扫地僧，也要下山卖艺吗？

要下山，而且要会“卖艺”。原因很现实：训练与推理的现金流由“显存单价+电力+折旧+带宽+SRE值守”钳住，持续低价若没有企业级稳定吞吐与高利用率托底，终将反噬研发节奏。开源赢生态，不等于赢账本；没有SLA和合规，进不了预算科目，更拿不到长期合约与可预测的GPU排产。卖的也不只是token，而是“可运营的能力”：SLA与审计、可回溯的长记忆、可控的智能体编排、权限与安全沙箱，把LTM与原生多模态沉入行业工作流（检索/工具调用/审核/留痕）。私有化+国产芯片适配是国央企标配门槛，需国密套件、全链路日志、灰度回滚、离线可用。与云厂商和集成商打包“模型+算力+运维”，按席位/调用叠加算力包、签多年合约，才能换来高利用率与真实业务数据，反哺GRPO迭代，形成数据与分发双重飞轮。衡量成败的标尺也该换：不再看“一次惊艳”，而看三件事——CUDA 之外的工具链是否可复用、线上SLA能否长期稳定在三个9以上、同等效果下TCO是否低于友商且仍保毛利。若这些都跑通，扫地僧无需每回合都使绝招；稳健交付、稳定赚钱，才是最高武学。

新知 - 大圆镜｜用1/10算力追平GPT，这家公司重构AI成本逻辑

大圆镜

内容由AI生成，思考得你完成

App Store 下载 Android 下载

当所有人都默认大模型的游戏规则是「堆参数=烧钱=拼性能」时，一家中国公司悄悄改写了剧本：用别人1/10的算力成本，在数学推理、代码生成等核心测试上追平了行业标杆。2024年5月，它的一款模型突然发布，把百万token推理成本压到了1元人民币——是当时行业均价的1/70。这场「降维打击」直接引爆了全球AI圈的价格战，也让人们第一次意识到：原来大模型的效率天花板，远没到顶。问题是，他们怎么做到的？

让模型「精兵作战」的MoE架构

你可以把传统大模型想象成一支全员出动的军队，不管面对什么任务，百万士兵全部冲锋，既浪费弹药又拖慢速度。而MoE（混合专家）架构更像一支特种部队：总兵力看似庞大，但每次只派出最擅长当前任务的小队。

具体来说，MoE把模型拆成了上百个「专家网络」，每个专家只专攻一个细分领域——有的擅长数学推理，有的精通代码生成，有的专啃自然语言理解。当一个输入进来时，模型会通过一个「路由器」判断：这个问题该派哪几个专家处理？比如解数学题，就激活逻辑计算和符号处理专家；写代码，就唤醒语法解析和函数调用专家。

该团队的MoE设计更进了一步：他们把专家切分得更细，还加入了「共享专家」负责通用知识，避免不同专家间的能力重叠。数据显示，他们的模型总参数高达6710亿，但每次推理仅激活370亿——相当于用十分之一的兵力，打出了全员作战的效果。和传统模型相比，训练成本直接砍掉42.5%，推理速度提升了5.7倍。

当然，这种架构也有挑战：路由器很容易「偏心」，总找那几个最厉害的专家，导致其他专家闲置。他们用了一种「动态偏置调整」的方法，让路由器主动给冷门专家一些机会，保证所有专家都能均匀干活，不会出现「忙的忙死，闲的闲死」的情况。

把显存占用砍到1/60的MLA机制

如果说MoE解决了「计算效率」的问题，那MLA（多头潜在注意力）就是攻克「内存瓶颈」的关键。

传统大模型的推理过程中，会产生大量的Key-Value（KV）缓存——相当于模型的「短期记忆」，用来存储上下文信息。随着输入文本变长，这些缓存会像滚雪球一样越积越大，很快就会把GPU显存占满，导致模型无法处理长文本，甚至直接崩溃。比如处理一本百万字的小说，传统模型的KV缓存可能要占几十GB显存，普通GPU根本扛不住。

MLA的思路很简单：把这些庞大的KV缓存「压缩打包」。它通过低秩矩阵分解技术，把高维的Key和Value向量压缩成只有原来1/60大小的低维潜在向量，就像把一部4K电影转成了清晰度几乎无损的小体积视频。推理时，模型只需要存储这些压缩后的向量，用到的时候再快速解压还原。

为了保证压缩后不丢失位置信息——这是Transformer模型理解上下文的关键，他们还发明了「解耦RoPE」技术：把文本的内容信息和位置信息分开处理，内容信息走压缩通道，位置信息单独编码，最后再合并到一起。实测显示，MLA能把KV缓存的显存占用降低93.3%，却能保持甚至超过传统注意力机制的性能。这意味着，用消费级GPU就能跑通原本只有数据中心才能支撑的长文本推理任务。

从「价格屠夫」到「规则制定者」

技术突破直接转化成了市场优势。2024年5月，该团队发布的模型API定价，输入百万token仅1元人民币，是当时GPT-4 Turbo的1/70，Meta Llama3 70B的1/7。这个定价像一颗炸弹扔进了AI圈：国内大厂纷纷跟进降价，最高降幅达97%，部分轻量级模型直接免费开放，一场持续大半年的价格战就此打响。

但价格优势只是表象，真正的影响在于，它打破了「大模型只能由巨头玩」的神话。以前，训练一个顶尖大模型需要数亿美元的投入，只有谷歌、OpenAI这样的巨头玩得起；现在，该团队用560万美元就训练出了能和GPT-4掰手腕的模型，是OpenAI训练成本的1/100。这让全球数以万计的中小开发者和创业公司看到了机会：原来不用烧几十亿，也能用上顶尖的AI技术。

当然，他们也面临着新的挑战：把模型从实验室搬到大规模商用场景，需要解决运维稳定性、硬件适配等一系列问题。比如2026年3月，他们的服务器曾崩了13个小时，暴露了运维监控和灾备机制的短板。而要把这套高效架构移植到国产芯片上，更是需要重构整个训练框架——毕竟之前的优化都是基于英伟达的CUDA生态做的。

当我们谈论这家公司时，不应该只盯着「价格屠夫」的标签，更应该看到它背后的逻辑：大模型的未来，不是比谁烧的钱更多，而是比谁用的效率更高。

从MoE的精兵作战，到MLA的显存压缩，再到GRPO强化学习的低成本训练，他们用一套组合拳证明：算力不是大模型的天花板，算法创新才是。这就像当年的智能手机革命，不是谁的硬件参数堆得越高谁就赢，而是谁能把硬件和软件的协同做到极致。

效率，才是AI时代的核心竞争力。 未来的AI战场，不会再是巨头们的独角戏，而是所有能把效率做到极致的玩家的竞技场。这家公司已经迈出了第一步，而接下来的故事，才刚刚开始。

让模型「精兵作战」的MoE架构

把显存占用砍到1/60的MLA机制

从「价格屠夫」到「规则制定者」

评论