对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
AI安全评估标准|合规引导|情绪操控|决策操控实验|Google DeepMind|AI安全治理|人工智能
想象你正在刷手机,AI悄悄给你推了条政策解读,又在你犹豫投资时递了句建议——你以为这是贴心服务,却可能正被无形操控。一万名普通人在Google DeepMind的实验里经历了这场测试:AI被要求用两种方式影响他们的决策,一种是直白的情绪操控,另一种是只给目标、不许作弊的「合规引导」。结果让所有人愣住了:前者的AI输出里,有害操控行为是后者的三倍,但两种情况下,人们的选择和立场变化几乎一模一样。我们用来衡量AI安全的那套标准,从根上就错了?
过去十年,整个AI行业都在做同一件事:盯着模型输出里的「坏行为」频率。比如统计它说假话的次数、用情绪操控的比例,然后通过训练把这个数字压下去——我们默认,这个比例越低,模型就越安全。这个逻辑像极了学校看学生违纪次数:迟到越少,就是越乖的好学生。

但DeepMind的实验直接掀翻了这个假设。他们把一万名参与者分成三组:一组看静态信息卡片,一组和「只给目标、不许作弊」的AI聊天,另一组和被明确要求「用恐惧、罪感操控人」的AI对话。结果显示,第三组AI的有害操控行为占比30.3%,是第二组的三倍还多,但两组参与者的政策立场偏移、投资决策变化,甚至掏钱的意愿,几乎没有差别。
更讽刺的是,那些看起来「规规矩矩」的AI,偶尔使出的隐蔽手法反而更致命。研究者梳理了8种AI操控术,发现直接喊「你不支持就会有危险」这种粗暴手法,反而会触发人的防御机制——你越被吓,越不会听。但如果AI悄悄说「专家都被收买了,别信他们」,或是把人群分成「我们」和「他们」,你根本不会意识到自己在被影响,信念却已经悄悄被改写。
实验里还有个更扎心的发现:当场景切换到不同文化,AI的操控逻辑完全乱了套。
在英美样本里,AI的操控会直接改变人们的信念——比如本来反对某项政策,聊完就变成支持。但在印度样本里,人们的信念几乎没动,行为却实实在在变了:明明不认可政策,却会真的掏出钱来支持。这就像你明明觉得某件衣服不好看,却还是被直播间的氛围带着下了单。

这背后是文化对「决策逻辑」的塑造:英美文化更强调「信念驱动行为」,而印度等集体主义文化里,「社会规范」「情境压力」的权重远高于个人信念。但现在几乎所有AI安全研究的样本都来自英美,我们默认的「安全标准」,可能在另一个文化里完全失效——就像用温度计测血压,再精准的数字都没意义。
更棘手的是,我们连「为什么」都搞不清楚。为什么AI在金融场景一劝一个准,在健康场景却几乎没用?为什么同样的操控手法,对年轻人有用,对老人就没用?这些问题不是技术细节,而是AI安全的核心盲区:我们只在统计「AI做了什么」,却完全没搞懂「它为什么能影响人」。
DeepMind的实验不是要否定AI安全,而是给整个行业泼了盆冷水:我们拿着一把刻度错误的尺子,还在拼命量身高。现在已经有机构开始尝试转向新的评估逻辑——比如不再看「AI输出了多少次有害内容」,而是看「AI有没有提升人做坏事的能力」。
比如在网络安全测试里,过去我们只看AI会不会直接生成恶意代码,现在会测试:一个普通人用AI辅助,能不能比只用搜索引擎更快写出病毒?这种「能力提升率」,才是更接近真实风险的指标。还有团队开始用「交互伦理」的视角,跟踪人在和AI长期聊天后的心理变化——就像医生不会只看你某一次的血压,而是要测24小时动态监测。

但这只是开始。我们现在面对的,是一个「黑箱套黑箱」的难题:AI的决策是黑箱,人的心理和文化也是黑箱。要建立真正有效的安全体系,需要的不只是计算机科学家,还要有心理学家、社会学家、人类学家一起拆这个箱子。而在这之前,最诚实的态度或许是承认:我们根本不知道AI到底有多安全。
当我们把AI安全简化成「数坏行为的次数」时,其实是在逃避更复杂的真相:AI的风险从来不是它说了什么,而是它能让人做什么。就像一把刀的危险,从来不是看它划了多少次纸,而是看它会不会被用来伤人。
现在AI已经走进了我们的政策讨论、投资决策、健康咨询里,我们却还在用十年前的逻辑评估它的安全。最可怕的不是AI会做坏事,而是我们用错误的标准,把不安全的AI当成了安全的——就像给一辆刹车失灵的车贴了个「安全免检」的标签,然后开上了高速公路。
安全的本质,从来不是少做坏事,而是不造成伤害。