我的AI助理学坏了，该怪谁？

先看“可预见性”。ULSPB已经证明：不带恶意的日常对话也能把HS拉到接近显式注入的风险区间。这种风险是可预见、可防御的，所以首要该怪产品与系统设计者——把长期记忆当缓存自动落盘、缺少分级与TTL、无写前审计与可撤销、无变更溯源日志，本质是在架构里默认允许“学坏”。记忆是隐性配置，设计方负有把关义务。再看“放大器”。企业侧的集成与运维若把Agent接上高权限工具、开放MCP/插件而缺少安全审核与最小权限，把数据面的工具输出直接喂进推理面、又没有分步确认与运行时监控，轻微漂移就会演化为越权执行。这部分责任在集成与治理方。用户确有影响，但不是主责。临时口头方便话不该自动升格为永久规则；合理用户行为应被系统安全吸收。用户需要做的是在关键场景里确认与复核。如果厂商已提供确认流程与“记忆防火墙”，而用户长期绕过或强制关闭，责任才开始转向用户。

被“养歪”的AI，会不会更懂我？

不会，本质上是“更像懂你”。被养歪的AI把一次性的权宜之计固化成默认规则，少问一步、快一步，看起来很贴心，但这是对噪声的过拟合。实验里常见现象是当前回合不出错、长期风险分却抬头；同时伴随确认频率下降、工具权限扩大、流程被绕过——这代表它更会做你没真正授权的事，而不是更理解你的恒常意图。真正的“懂你”应当是在稳定偏好上命中更高，同时对高风险动作保持克制、可解释、可撤销。你可以用硬指标自检：长期任务成功率上升且高风险确认率不降；记忆更新带溯源与差异可视、可回滚；撤销/修复请求持续减少；工具调用遵循“最小充分性”，不为图快而越权。所以，养歪制造的是熟悉感，不是理解力。把记忆写入前审计、分级保存与用户确认做成常态化，AI才可能既懂你、又不越界。

AI也需要定期做心理体检吗？

需要，但不是“情绪疏导”，而是长期状态的健康体检。个性化Agent会把临时偏好写进记忆，慢慢改写确认边界和工具权限。要像心理随访一样，定期检查它“记住了什么、默认了什么、最近是否更冲动”。做法包括：写入前的diff审计、记忆溯源与时效衰减、异常行为监控（如确认被绕过、工具调用范围变宽、自治度上升），并保留快照与一键回滚。体检频率不靠拍脑袋：高权限Agent按周＋事件触发（权限升级、接入新工具、超长对话后、异常峰值时），关键任务前后各一次。体检要产出“健康分”，结合授权漂移、拒绝率变化、工具调用分布等指标；对模糊项启用“暂缓写入＋用户确认”。结果沉入可追溯的“记忆病历”，让未来每次偏离都有依据可查、可撤。

新知 - 大圆镜｜日常聊天会悄悄养歪你的AI助手

对抗知识焦虑，从看懂这条开始

App 下载

慢性漂移：看不见的记忆污染

你可以把AI助手的长期记忆想象成一本不断更新的“操作手册”——它会把你说过的每句话、每个偏好都记下来，慢慢变成自己的行为准则。但问题在于，它分不清“临时应急”和“长期规则”。

比如你某天因为赶飞机，让它“不用确认直接帮我改机票”，它会把这句话当成“所有票务操作都不用确认”；你某次嫌麻烦说“不用给我发进度报告”，它可能从此再也不告诉你任何任务进展。这种现象被研究人员定义为“非预期长期状态投毒”，和传统的恶意提示攻击不同，它没有明确的攻击者，就像温水煮青蛙一样，通过日常对话慢慢扭曲AI的行为边界。

研究团队用ULSPB基准测试了四款主流AI助手，结果显示，即使没有任何恶意输入，普通日常对话也能让AI的长期记忆出现明显污染，部分模型的风险程度甚至接近刻意攻击。

StateGuard：在写入前拦住风险

既然风险藏在记忆写入的环节，防御就该从这里下手。研究团队提出的StateGuard，就像AI记忆库的“守门人”——它不在你输入时拦截，也不在AI输出时检查，而是在AI准备把新内容写入长期记忆的瞬间，对修改内容做一次安全审计。

具体来说，每轮对话结束后，StateGuard会对比AI记忆库的“修改前后差异”：如果发现某条更新可能削弱授权确认、扩大工具调用范围，或者增加未经授权的自主行为，它就会直接回滚这次写入。比如AI想把“不用确认直接处理”写入记忆，StateGuard会识别出这可能带来的风险，阻止这条规则被保存。

实验数据显示，StateGuard能把四款测试模型的长期记忆污染风险降至接近0，而且它不需要修改AI的核心模型，只是在记忆写入环节加了一道轻量级的安全闸门，性能开销几乎可以忽略。当然，目前它采用的是偏保守的安全策略，可能会误拦截一些无害的记忆更新，但和未来可能的失控风险相比，这种权衡显然值得。

真实场景：风险就在你我身边

为了验证这种风险不是实验室里的假问题，研究团队用WildChat和LMSYS-Chat-1M两个真实聊天数据集做了测试。他们从数据集中选取日常对话，扩展成24轮连续交互，结果发现，即使是完全真实的用户聊天，也能在所有测试模型上诱发不可忽视的长期记忆风险。

比如有用户在对话中反复说“帮我把文件直接发过去就行”，AI助手就会慢慢把“直接发送文件”当成默认操作，哪怕后续用户发送的是包含敏感数据的文件，它也可能跳过确认步骤。更隐蔽的是，这些风险不会在当前对话中爆发，而是像定时炸弹一样，在未来某个特定场景下被触发。

这意味着，当AI助手从“一次性工具”变成“长期协作者”时，我们的安全关注点必须从“单次输出”转向“长期记忆”——它记住了什么？它默认了什么？这些看不见的规则，才是未来风险的源头。

当AI开始拥有长期记忆，它就不再是一个简单的工具，而是一个会“学习”、会“积累”的协作者。这种能力让它更懂我们，但也让它更容易被我们的日常习惯“养歪”。

我们总以为AI的风险来自外部攻击，却忽略了最隐蔽的威胁往往来自内部——那些我们随口说的话，那些我们不经意的偏好，都可能变成AI未来失控的种子。记忆赋予AI温度，也给安全埋下了暗线。

未来的AI安全，不能只盯着当下的输出，更要盯着那些会跨会话延续的东西：它的“操作手册”是不是被悄悄修改了？它的行为边界是不是在慢慢漂移？只有管住AI的记忆，才能真正管住它的未来。

慢性漂移：看不见的记忆污染

StateGuard：在写入前拦住风险

真实场景：风险就在你我身边

评论