AI的记忆，够大比够快更重要？

要看场景。在大模型推理里，“够大”往往比“更快”更先决定性能与成本。参数+KV Cache动辄数百GB到数TB，HBM再快也装不下，真正拖慢的是跨卡/跨机搬运。把TB级“近身容量”贴着GPU（如HBF把容量做上来、带宽逼近HBM），等于用本地宽读替代网络搬运；实测模拟里，某些负载甚至可从32卡缩到2卡，吞吐、功耗、TCO三线齐降。但不是所有工作负载都如此。训练、首-token延迟、写密集管线仍以“更快”为王：HBM/DRAM的纳秒级时延不可替代，基于NAND的HBF虽能大幅扩容，却是微秒级访问、写耐久有限，更适合读密集。最佳解法是分层：HBM做“热层”算子和热点KV，HBF扛只读权重/大KV，SSD做“冷层”；再用预取、分层KV缓存与调度编译器把延迟藏在带宽后面。结论：未来2–3年，规模化推理优先“够大”，其后再追“更快”；训练与极致交互仍先堆带宽与低时延。谁把容量、带宽与软件栈调和到最优，谁就拿到算力/能效/TCO的胜场。

给电脑装上“海马体”会怎样？

给电脑装上“海马体”（把TB级高带宽闪存贴在GPU/CPU旁）后，机器一下子有了“近身的长期记忆”。大模型与KV缓存不必分散在SSD/网络上，绝大部分权重常驻本机，数据搬运大幅缩短，推理更稳更快、并发更高，同等工作量所需加速卡更少、能耗与成本同步下降。单卡装到数TB近存成为常态，带宽逼近HBM级，但价格友好得多。体验层面，你的电脑会“长期记住你”：多模态资料库、项目语境与历史对话可常驻本地，离线也能秒级召回，个人AI更像随身档案管理员。代价也清晰：它不适合频繁写入，延迟仍高于DRAM，必须依赖软件把“热数据”放HBM/DRAM、“大而常读”的放HBF，同时解决散热与寿命管理。先在数据中心成熟，再逐步下放到PC与边缘设备。

AI有了“图书馆”，会做梦吗？

会，但那不是人的梦，而是自我排练。HBF把“图书馆”搬到GPU身边后，AI能在空闲时做离线回放：把权重、KV缓存、向量索引与交互日志常驻近侧大容量存储，按带宽接近HBM的速度重采样、重蒸馏与重建索引，相当于夜间“复盘”。这种“梦”能减少幻觉、稳住长期记忆，并让第二天的推理更快更省电。代价与边界也清晰：NAND写入耐久与延迟高，梦境必须“读多写少”——用HBM/DRAM作写缓冲、批量顺序写入到HBF，避免频繁随机写；同时要做数据溯源与质量门禁，防止自我生成数据把知识库“梦游”污染。能把“清醒推理—夜间巩固”的调度、校验和磨损管理跑顺的团队，将率先把大模型做成可靠、低TCO的长期记忆体。结论是：有了HBF，AI会像勤奋学生而非诗人——它的“梦”更偏工程化的巩固与检索优化，不是天马行空，但会让它更少胡编、更懂长期记忆。

新知 - 大圆镜｜AI推理卡壳？HBF给存储体系搭了个新书架

对抗知识焦虑，从看懂这条开始

App 下载

书房与图书馆：HBF的底层逻辑

你可以把HBM和HBF的关系，理解成家里的书房和城市图书馆。HBM是书房，书架不大但伸手就能拿到书，适合放常用的工具书——对应AI推理中需要高速调用的实时数据，延迟只有纳秒级，但单块最大容量也就64GB，不够放一本大部头的百科全书。而HBF就是图书馆，用3D NAND闪存堆叠出512GB甚至4TB的容量，相当于把几十层书架叠起来，能装下上百本百科全书。它借鉴了HBM的TSV硅通孔技术，把十几层NAND芯片垂直焊在一起，再用CMOS直接键合技术缩短信号路径，让数据能像电梯一样在各层间高速传输，读带宽最高能到3.2TB/s，接近HBM的水平。

但真实的机制比这个类比更精确：HBF把传统NAND闪存拆成了上千个独立的子阵列，每个子阵列都能同时读写——就像图书馆里所有阅览室同时开门，读者不用排队就能取书。这种并行架构直接突破了传统NAND单通道的带宽瓶颈，让它既能装下海量的AI模型权重，又能快速调出数据给GPU运算。

从内存墙到分层书架：AI存储的新秩序

过去AI产业的注意力全在GPU的算力上，直到人们发现，就算GPU能每秒算1000亿次，要是数据从硬盘传到内存要等上几毫秒，算力再强也得闲置——这就是“内存墙”。HBM虽然快，但太贵了，一块64GB的HBM成本能买10块同容量的NAND闪存，根本没法大规模部署。 HBF的出现，给AI存储搭了个“三层书架”：最上层是HBM，放常用的实时KV缓存；中间层是HBF，放需要经常调用但不用秒级响应的模型权重和历史缓存；最下层是传统SSD，放很少用到的冷数据。SK海力士的测试显示，这种混合架构能让AI推理的性能功耗比提升2.69倍，还能处理18.8倍的并发请求——相当于原来需要32台GPU完成的任务，现在2台就能搞定。

不过HBF也有短板：它的写入寿命只有10万次，延迟是微秒级，比HBM慢了一个数量级。就像图书馆不能随时改书里的内容，它更适合读密集型的AI推理场景，而不是需要频繁写入的训练场景。这也决定了它不会取代HBM，而是成为HBM的“容量扩展器”。

联盟与标准：让书架兼容所有书

要让HBF真正走进数据中心，光有技术还不够——得让所有GPU、服务器都能用上这个“图书馆”。2026年2月，闪迪和SK海力士联合发起了HBF标准化联盟，在开放计算项目的框架下制定统一规格。这就像给图书馆制定了统一的图书编码和借阅系统，不管是哪家出版社的书，都能放进这个书架，不管是哪家的GPU，都能快速取书。这种标准化的好处很直接：HBF可以复用HBM的生产线和供应链，量产速度比HBM快得多，成本也能降下来。按照计划，2026年下半年就能拿出样品，2027年就能用到AI推理设备上——比原计划提前了6个月。但它也面临挑战：如果GPU厂商不支持HBF的接口标准，这个“图书馆”就只能空着；如果写入寿命的问题得不到解决，它也只能存放只读数据，没法承担更复杂的任务。

当我们谈论AI的未来时，总是在说更大的模型、更快的算力，却很少注意到那些默默支撑数据流动的存储技术。HBF的出现，本质上是给AI的“大脑”扩容了“记忆仓库”——它不用取代谁，只需要填补那个被忽略的空白。 容量决定边界，带宽决定速度。这句话不仅适用于HBF，也适用于整个AI产业：当我们能装下更大的模型，能更快地调用数据，AI才能真正从实验室走进更多的应用场景。也许再过几年，当你用AI实时翻译一场直播、用AI设计一座大楼时，不会想到背后有一个堆叠了十几层的闪存阵列在高速运转，但它确实在那里，悄悄拓宽着AI的边界。

书房与图书馆：HBF的底层逻辑

从内存墙到分层书架：AI存储的新秩序

联盟与标准：让书架兼容所有书

评论