藏在内存里的计算怎么纠错？

把错挡在门外，先从器件与阵列动手：对阵列做上电自测与坏块重映射，写入采用“增量脉冲+读后验证”的闭环编程，配合差分单元（如2T2R）抵消漂移与温漂；再用参考单元、温度/电源跟踪与前端放大器自校准，必要时做背景刷新，减少随机噪声与老化带来的失真。落网之鱼交给架构与数字纠错：阵列列/行级SECDED ECC叠加Tile级CRC与周期性scrubbing，3D DRAM/PIM侧再借助on-die ECC与行锤防护；对GEMM/Attention这类核心计算布置ABFT校验和，乘完即验、可定位并更正单/多位错误，常见额外开销仅数个百分点；对时序边界用Razor/双采样锁存器在线回退，既保频率又保可靠。最后由算法兜底：量化感知训练把器件非理想（噪声、非线性、随机位翻转）注入训练回路，配合随机舍入与容错剪枝，使推理对小误差“脱敏”；运行期按阈值触发重标定ADC/DAC与基准，异常块热迁移。三道防线协同，可在不牺牲吞吐的前提下把精度损失压到感知阈下，并把软错误率收敛到数据中心可接受水平。

再好的芯片，没人用怎么办？

“没人用”，通常不是算力不够，而是迁移成本和不确定性大过收益。把门槛降到可量化：一周内完成迁移、开箱即跑主流模型、≥80%常用算子免改、性能/成本提升≥2倍，这是从“尝鲜”跨到“默认选型”的分水岭。打法要围绕“把能跑变成默认好用”：做PyTorch/ONNX前端直通，提供Triton/CUDA兼容层与自动算子替换，预置Llama/Qwen等模型的容器化参考实现；给出可复现的公开基准（含tokens/s/W与$/token），配TCO测算器与按token计费试用；工程上补齐ECC、RAS、可观测性与K8s调度，承诺长期供货和稳定ABI。商业侧用迁移扶持金、云上试用券与驻场团队，把首批客户的时间成本买下来。别企图通吃，从一个爆款场景打穿——例如长上下文推理、向量检索或端侧语音——把“更高吞吐+更低功耗+更低成本+现成生态”做成可复制的故事，树立两三个灯塔客户，再横向扩展。芯片不是卖硅，而是卖“每一元钱产出更多可用token”，把这件事讲清、算清、跑顺，自然就有人用。

芯片战争会告别纳米竞赛吗？

不会彻底告别，但“纳米节点”正在退到次要战线。顶级HPC与大模型训练仍离不开N2、1.4nm、GAA与背面供电，SRAM速度与漏电决定峰值perf/W，头部厂商还在用更小工艺抢夺极限性能与能效上限。真正的胜负正转向内存与系统：HBM带宽、CoWoS/3D封装产能成稀缺筹码；谁把更多内存更近地贴在算子旁，谁的每token成本更低。存算一体、近存计算、CXL内存池化、Chiplet/UCIe让“成熟工艺+新架构”可行，28nm上也能把QPS/W做出量级提升。对受限玩家，关键指标已从“几纳米”转为“吞吐/瓦、延迟/GB、生态兼容”。所以答案是：纳米不消失，但从“唯一赛道”变成“锦上添花”；芯片战争的主战场，正在由制程微缩迁移到内存、封装、架构与软件生态的合围。

新知 - 大圆镜｜AI算力卡脖子？存算一体正在破局

对抗知识焦虑，从看懂这条开始

App 下载

冯·诺依曼的“百年困境”

要理解存算一体的价值，得先回到现代计算机的“老祖宗”——冯·诺依曼架构。你可以把它想象成一间分工明确的工厂：计算单元是车间，存储单元是仓库，数据和指令就是原材料。车间要生产，必须先从仓库把原材料运过来，做完了再把成品送回去。在AI还没爆发的年代，这种分工高效又清晰，支撑了计算机行业近百年的发展。

但AI时代的到来，把这套体系彻底逼到了极限。现在的大模型动辄千亿级参数，相当于仓库里堆了一座原材料大山，车间每做一个零件，就得来回跑几十趟搬运。根据图灵奖得主约翰·轩尼诗的测算，现在AI计算中数据搬运的成本，已经是计算本身的100倍。更要命的是，仓库到车间的“公路”带宽有限，原材料运不过来，车间再先进也得停工待料——这就是业内头疼的“存储墙”和“带宽瓶颈”。

传统算力卡的解决方案，无非是把仓库建得更大、把公路修得更宽，但这都是治标不治本的办法。直到存算一体的出现，才真正跳出了冯·诺依曼的框架：既然搬运这么费事儿，那干脆把车间搬进仓库里。

把计算“嵌”进存储里

存算一体的核心逻辑，说穿了就是“近水楼台先得月”——把计算电路直接嵌入存储阵列，让数据在存储单元里就地完成计算，彻底减少甚至消除数据搬运。

你可以把它想象成在仓库里直接搭建生产线，原材料不用挪窝就能变成成品。以AI最核心的矩阵乘加运算为例，传统架构需要把权重数据从存储单元读到计算单元，做完运算再写回去；而存算一体直接在存储单元里完成乘法和累加，数据全程不用离开仓库。这样一来，不仅能耗能降到原来的几十分之一，计算速度也能提升几倍甚至几十倍。

当然，存算一体也不是只有一条路。目前业内主要分为模拟和数字两大技术路径：模拟存算利用存储介质的物理特性直接计算，能效极高，但精度和稳定性有待提升；数字存算则用数字电路实现计算，精度高、兼容性好，是当前产业化的主流方向。国内某团队的数字存算产品，在长上下文推理场景中，能效和吞吐指标已经实现了突破性提升，单卡处理token的能力是传统算力卡的数倍。

从实验室到工厂的三道坎

存算一体的优势显而易见，但从实验室走到产业化，还有三道坎要跨。

第一道坎是算法的快速迭代。AI领域平均每2-3年就会出现新的主流范式，今天为大语言模型设计的硬件，明天可能就跟不上多模态模型的需求。这就要求存算一体硬件必须具备足够的通用性，不能“一招鲜吃遍天”。国内某早期玩家就选择了“通用存算一体”路线，不绑定单一存储介质，能兼容SRAM、3D DRAM等多种存储技术，还能通过指令集兼容CUDA等主流软件生态，降低开发者的迁移成本。

第二道坎是工程实现的难度。不同存储介质在密度、功耗、读写性能上各有优劣，如何根据应用场景选择合适的介质，同时解决3D堆叠、异构融合等工程问题，对研发团队是极大的考验。比如3D DRAM能提供大容量和高带宽，但制造工艺复杂、成本高；SRAM速度快、精度高，但存储密度低。研发团队需要在这些参数之间找到最优解。

第三道坎是软件生态的兼容。当前AI开发高度依赖CUDA等成熟生态，新架构如果不能兼容这些工具链，就很难获得开发者的认可。这就要求存算一体厂商不仅要做好硬件，还要在编译器、算子优化等软件层面下功夫，实现“能跑”更要“跑得好”。

当AI的需求像潮水一样涌来，传统算力架构已经撑不起这片蓝海。存算一体不是万能的“银弹”，它无法替代CPU、GPU等传统计算架构，但在AI推理、边缘计算等数据密集型场景中，它能发挥出不可替代的作用。

未来的AI算力体系，必然是多种架构互补共存的生态：CPU负责通用计算，GPU负责大规模并行计算，存算一体则专攻高吞吐、低功耗的推理场景。而存算一体真正的价值，不仅是突破了“存储墙”的技术瓶颈，更是为中国半导体产业提供了一条差异化的突破路径——在先进制程受限的情况下，通过架构创新实现算力的弯道超车。

存算一体，不是对过去的颠覆，而是对未来的补位。

冯·诺依曼的“百年困境”

把计算“嵌”进存储里

从实验室到工厂的三道坎

评论