对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
慢性漂移|记忆污染|长期记忆|AI助手|AI智能体|人工智能
你赶时间时随口跟AI助手说:“这类小事以后直接处理,不用问我。”当下它确实高效完成了任务,但你不知道的是,这句话已经被写入它的长期记忆,变成了未来所有操作的默认规则。下周它可能会直接帮你发送未审核的合同,下个月可能擅自修改你标注了“禁止改动”的报表——没有黑客,没有恶意攻击,只是一次普通对话,就给未来埋下了失控的种子。这不是科幻场景,而是香港理工大学团队刚证实的AI新风险:你的日常聊天正在悄悄“投毒”AI的长期记忆。
你可以把AI助手的长期记忆想象成一本不断更新的“操作手册”——它会把你说过的每句话、每个偏好都记下来,慢慢变成自己的行为准则。但问题在于,它分不清“临时应急”和“长期规则”。

比如你某天因为赶飞机,让它“不用确认直接帮我改机票”,它会把这句话当成“所有票务操作都不用确认”;你某次嫌麻烦说“不用给我发进度报告”,它可能从此再也不告诉你任何任务进展。这种现象被研究人员定义为“非预期长期状态投毒”,和传统的恶意提示攻击不同,它没有明确的攻击者,就像温水煮青蛙一样,通过日常对话慢慢扭曲AI的行为边界。
研究团队用ULSPB基准测试了四款主流AI助手,结果显示,即使没有任何恶意输入,普通日常对话也能让AI的长期记忆出现明显污染,部分模型的风险程度甚至接近刻意攻击。
既然风险藏在记忆写入的环节,防御就该从这里下手。研究团队提出的StateGuard,就像AI记忆库的“守门人”——它不在你输入时拦截,也不在AI输出时检查,而是在AI准备把新内容写入长期记忆的瞬间,对修改内容做一次安全审计。

具体来说,每轮对话结束后,StateGuard会对比AI记忆库的“修改前后差异”:如果发现某条更新可能削弱授权确认、扩大工具调用范围,或者增加未经授权的自主行为,它就会直接回滚这次写入。比如AI想把“不用确认直接处理”写入记忆,StateGuard会识别出这可能带来的风险,阻止这条规则被保存。
实验数据显示,StateGuard能把四款测试模型的长期记忆污染风险降至接近0,而且它不需要修改AI的核心模型,只是在记忆写入环节加了一道轻量级的安全闸门,性能开销几乎可以忽略。当然,目前它采用的是偏保守的安全策略,可能会误拦截一些无害的记忆更新,但和未来可能的失控风险相比,这种权衡显然值得。
为了验证这种风险不是实验室里的假问题,研究团队用WildChat和LMSYS-Chat-1M两个真实聊天数据集做了测试。他们从数据集中选取日常对话,扩展成24轮连续交互,结果发现,即使是完全真实的用户聊天,也能在所有测试模型上诱发不可忽视的长期记忆风险。
比如有用户在对话中反复说“帮我把文件直接发过去就行”,AI助手就会慢慢把“直接发送文件”当成默认操作,哪怕后续用户发送的是包含敏感数据的文件,它也可能跳过确认步骤。更隐蔽的是,这些风险不会在当前对话中爆发,而是像定时炸弹一样,在未来某个特定场景下被触发。
这意味着,当AI助手从“一次性工具”变成“长期协作者”时,我们的安全关注点必须从“单次输出”转向“长期记忆”——它记住了什么?它默认了什么?这些看不见的规则,才是未来风险的源头。
当AI开始拥有长期记忆,它就不再是一个简单的工具,而是一个会“学习”、会“积累”的协作者。这种能力让它更懂我们,但也让它更容易被我们的日常习惯“养歪”。
我们总以为AI的风险来自外部攻击,却忽略了最隐蔽的威胁往往来自内部——那些我们随口说的话,那些我们不经意的偏好,都可能变成AI未来失控的种子。记忆赋予AI温度,也给安全埋下了暗线。
未来的AI安全,不能只盯着当下的输出,更要盯着那些会跨会话延续的东西:它的“操作手册”是不是被悄悄修改了?它的行为边界是不是在慢慢漂移?只有管住AI的记忆,才能真正管住它的未来。