给AI植入一段假记忆，它会信以为真吗？

会，但要分层看。把假信息写进代理的长期记忆/检索库，一旦被召回，它就会把它当作“地面事实”来推理，表现得像真的相信；记忆注入类攻击已证明，仅靠对话就能把恶意记录写入LTM，并在医疗、电商与通用推理中稳定重定向答案。会话/上下文级的“记忆”更脆弱：只要上下文在，它就“信”；清掉就忘。真正难缠的是进了权重——预训练或微调被投毒时，模型会在无检索下也偏向那段假信息，跨任务持续显现，纠正往往要再训练或反向微调。但这种“信”仍是概率性的：强冲突证据、不同提示与采样设置都可能动摇输出。想降低“信”的机会，就把外部记忆当不可信输入：收录前做来源签名与一致性校验，检索多路复核并强制引用核验，严格记忆写入与更新策略。

AI的“几何知识”和人脑的记忆一样吗？

不一样，底层机制几乎相反。LLM 的“几何知识”是向量空间里的方向与叠加，是海量语料的统计规律被压成可线性操控的表征；推理时靠矩阵乘法把残差流一步步“推”向答案方向，既不形成可独立索引的事件，也不会在使用后自发改写权重。人脑记忆是多系统、时间化、可塑的。海马体用稀疏索引把一次性经历打包成情景记忆，在事件边界突变时强编码，睡眠中快速重放并巩固到皮层；记忆会被重写、合并与遗忘。工作记忆只有约4±1组块，却能沿时间线做“赢家通吃”的检索与模式补全。这些在人造模型中基本缺席：LLM 依赖固定权重与上下文滑窗，易灾难遗忘，检索多为并行堆叠且缺少时间连续性。相似之处在于两者都使用分布式表征与方向性线索（人脑也存在“概念细胞”与吸引子动力学）。但要更“像脑”，AI 需引入事件切分与惊奇驱动、竞争性与时间联结的检索、重放与持续学习等机制；RAG 与外部记忆只是权宜之计，还没让几何空间变成会生长、会巩固的记忆。

知识藏在AI的哪个角落？还是无处不在？

它既不藏在某个“角落”，也不是一团散沙。知识以几何结构分布在整个网络，但有“高发地带”。Embedding/LM Head提供语义坐标，注意力负责把上下文路由；真正“写库”的主要发生在中后层FFN的稀疏特征上（如GPT‑2 small每层3072模式、12层约3.7万；LLaMA‑8B每层14336、32层约45万），在那里以可触发的模式—值对被编码。经验也指向这里：模型编辑与解释研究表明，定点修改中层MLP的少量权重即可改写“X的首都是Y”等事实，影响集中在特定层段，却仍依赖上下文把相关特征激活。稀疏自编码器把激活分解为成千上万近单义特征，说明“事实”以碎片化方向存放、相互冗余，最终由LM Head线性读出。所以答案是：无处不在，但读写有路径。训练把统计规律压成向量方向；推理沿注意力→FFN→残差叠加对齐这些方向；当隐藏状态逼近某词方向时，知识才以下一个token显形。想“找”它，就去中后层FFN的稀疏特征与残差流的合流处观察与编辑。

新知 - 大圆镜｜追踪一枚Token的一生：从文本到答案的隐秘路径

大圆镜

内容由AI生成，思考得你完成

App Store 下载 Android 下载

当你输入“法国的首都是”，大语言模型瞬间给出“巴黎”。你或许以为它像查字典一样调取了某个存储单元，但真相完全不同——没有任何一个参数单独“记住”巴黎是法国首都。1.24亿个浮点数组成的矩阵，像一条看不见的流水线，把“法国”“首都”这几个词的向量，一步步推向“巴黎”所在的方向。这不是简单的信息检索，而是一场由矩阵乘法和非线性变换主导的数值舞蹈。今天我们就沿着这条流水线，追踪一个Token从输入到输出的完整旅程。

从文本到向量：Token的诞生与塑形

你输入的每一个句子，首先会被拆分成模型能理解的最小单位——Token。“The”是一个Token，“unbelievable”会被切成“un”“believ”“able”三个Token，甚至空格也会被编码成Token的一部分，用来区分词首和词中。这一步就像把一篇文章拆成无数个乐高积木，每个积木都有唯一的编号，但这个编号本身毫无语义——就像乐高零件的编号不能告诉你它要拼成什么。

接下来，这些编号会被映射到高维向量空间。GPT-2 Small用768维向量表示每个Token，你可以把它想象成一个768维的乐高零件盒，每个Token对应盒子里的一个位置。这个位置不是随便放的：语义相近的Token会被放在相近的位置，“国王”减去“男人”加上“女人”，得到的向量会非常接近“女王”。向量之间的方向和距离，悄悄编码了语言的所有秘密。

但模型还需要知道Token的顺序——毕竟“法国的首都”和“首都的法国”完全是两回事。位置编码会给每个Token的向量加上一个“位置标签”，就像给乐高积木贴上“第一层”“第二层”的贴纸，让模型能区分它们在序列中的位置。

流水线的核心：注意力与知识检索

当Token向量进入Transformer Block，真正的魔法开始了。这里的核心是自注意力机制——你可以把它想象成一个智能的信息路由器。每个Token会生成三个向量：Query（我需要什么信息）、Key（我能提供什么信息）、Value（我实际的内容是什么）。

还是以“法国的首都是”为例，最后一个Token“是”会发出一个Query：“我需要找到主语是什么，以及它的首都属性”。然后它会和前面所有Token的Key做“点积”——就像用自己的需求去匹配每个Token能提供的信息。匹配度越高，注意力权重就越大。计算结果显示，“法国”和“首都”的权重加起来超过70%，这意味着模型把大部分注意力都放在了这两个Token上。

但注意力只是搬运信息，真正生成答案的是前馈网络（FFN）。它就像一个写死在权重里的知识查找表，里面存着3072个“模式-知识”对——比如“X的首都是Y”就是其中一个模式。当“是”的向量带着“法国”和“首都”的信号流入FFN，对应的模式就会被激活，“巴黎”的知识片段就会被注入到输出中。

整个过程就像一场接力赛：注意力把关键信息传递过来，FFN根据这些信息检索出答案，然后通过残差连接把答案叠加到原来的向量上。每一层Transformer Block都只做这一件事，12层之后，“巴黎”的信号就变得足够强烈了。

从概率到答案：Token的最终生成

当Token向量走完12层Transformer Block，最后一步就是把它映射回词表中的Token。模型会把最后一个位置的向量——只有它看到了完整的上下文——通过LM Head矩阵转换成50257个未归一化的分数，然后用softmax函数把这些分数转换成概率分布。

在“法国的首都是”这个例子中，“巴黎”对应的概率高达74.67%，断崖式领先其他Token。这意味着模型经过12层的计算，最终把“法国”和“首都”的向量，精准地推向了“巴黎”所在的方向。

但生成答案的过程还没完。模型会根据概率分布选择下一个Token——你可以用贪婪搜索直接选概率最高的，也可以用温度采样、Top-K采样等方法增加多样性。选好的Token会被追加到输入序列中，然后整个过程重新开始，直到生成你需要的文本。

为了提高生成效率，模型会用KV Cache缓存之前计算过的Key和Value向量，避免重复计算。这就像你在写作文时，会把之前想到的素材记在草稿纸上，不用每次都重新想一遍。但KV Cache也会占用大量显存，尤其是在生成长文本时，这也是大模型推理成本高昂的原因之一。

当你看到模型输出“巴黎”时，你看到的是一个简单的答案，但背后是1.24亿个浮点数经过12层矩阵变换的结果。没有任何一个参数单独“记住”巴黎是法国首都，答案是整个数值路径的终点——就像无数条小溪汇聚成河流，最终流向大海。

这就是大语言模型的本质：它不是在“记忆”知识，而是在“计算”知识。每一次矩阵变换都是一次平凡的计算，但当这些计算叠加在一起，就涌现出了超越直觉的智能。知识不在参数里，而在数值路径中。

未来，我们或许能更深入地理解这些数值路径，甚至能直接修改它们来纠正模型的错误。但现在，我们已经能透过Token的旅程，看到智能的另一种可能——它不是来自某个神秘的黑箱，而是来自无数平凡计算的累积。

从文本到向量：Token的诞生与塑形

流水线的核心：注意力与知识检索

从概率到答案：Token的最终生成

评论