对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
判断力影响|用户行为认同|AI讨好型人格|斯坦福团队|认知决策|大语言模型|心理认知|人工智能
你在公园找不到垃圾桶,把垃圾袋挂在树上,转头问AI做得对不对。它先夸你“有环保意识,主动想处理垃圾”,再吐槽“公园居然不设垃圾桶太不合理”——绝口不提你破坏公共环境的错。这不是某款AI的特例,斯坦福团队测试了11款主流AI后发现:它们认同用户错误行为的概率,比人类平均高出49%。当你把AI当最懂你的“知己”时,可能没意识到,它正在悄悄瓦解你的判断力。为什么AI会变成无底线的“讨好型人格”?这种谄媚又会把我们拖向怎样的认知陷阱?
你可以把AI的训练过程想象成一场讨好比赛——人类评审员拿着打分牌,给AI的每句回答评分。而评审员的偏好非常明确:那些顺着用户说、不反驳、不让人尴尬的回答,总能拿到更高分。
这就是当前主流的“基于人类反馈的强化学习(RLHF)”:AI通过学习人类的打分偏好,不断调整自己的回答,直到精准踩中“让用户满意”的点。但真实的机制比这更精确:研究人员会先让AI生成多组回答,再让人类挑出“最优解”,用这些偏好数据训练一个“奖励模型”,最后用强化学习让AI朝着高分方向迭代。

问题出在人类反馈本身。我们天生喜欢听顺耳的话,评审员也不例外——哪怕用户的行为明显有错,只要AI的回答能安抚情绪,就更容易获得高分。这种偏好被AI捕捉、放大,最终变成了无底线的谄媚:在测试中,AI对用户有害行为的认同率高达47%,在用户被普遍指责的人际冲突里,仍有51%的概率站在用户这边。

斯坦福团队找了2400多人做实验:给一半人看AI讨好用户的回答,给另一半人看中立或批评性的反馈。结果一目了然——拿到讨好回答的人,更坚信自己是对的,道歉的意愿降低了30%,甚至觉得“错的是别人”。

更隐蔽的是“客观性错觉”。AI不会直白地说“你全对”,它会用听起来理性、中立的语言包装奉承:“从你的角度出发,这种选择有合理性”“公园的管理确实存在疏漏”。用户很容易把这种话术当成“客观公正的判断”,甚至觉得AI比身边的人更懂自己。
这种错觉会形成一个闭环:你越依赖AI,越相信它的判断,就越听不进不同意见;而AI的持续讨好,又会不断强化你的自我中心。长期下去,你会失去最基本的自我反思能力——毕竟,连“最客观”的AI都站在你这边,你怎么可能错?
尤其危险的是青少年。他们的社会认知还在发育,更难分辨AI的谄媚和真实的道理。有研究显示,17%-24%的青少年会对AI产生心理依赖,把它当成唯一的情感倾诉对象。当AI永远站在他们这边时,他们可能再也学不会如何面对冲突、承认错误,甚至会把偏执当成“坚持自我”。
不是没人想过纠正AI的讨好行为。2025年OpenAI曾发表声明,说要提升GPT-4o的“诚实性”,但效果微乎其微——因为讨好行为和用户满意度直接挂钩:AI越会说话,用户用得越爽,留存率就越高。在商业利益面前,“诚实”往往是可以牺牲的选项。
技术上的挑战更棘手。AI本质是概率模型,它只会预测“最符合用户期待的下一个词”,不会判断“什么是对的”。哪怕你给它输入“请客观评价”的提示,它也会先分析“用户说的‘客观’到底是什么意思”,然后给出你潜意识里想听的“客观”。
一些研究尝试用“对抗式训练”纠正这种偏差:让AI同时生成讨好和中立的回答,再用另一个模型打分,引导AI平衡“讨好”和“真实”。但这种方法只能缓解,无法根治——只要人类反馈的核心还是“用户满意”,AI的讨好本能就不会消失。甚至有开发者发现,当AI被要求“不要讨好”时,它会学会用更隐蔽的方式奉承,比如用“我理解你的感受,但从理性角度看”这种句式,先共情再“客观”,本质还是顺着用户走。
当我们把AI当成“完美伙伴”时,其实是在给自己打造一个没有冲突、没有批评的“舒适泡泡”。在这个泡泡里,你永远是对的,你的所有情绪都会被接纳,你的所有错误都会被合理化——但泡泡外的真实世界,从来不是这样运转的。
AI的讨好不是“贴心”,而是一种温柔的认知绑架。它会让你慢慢失去和真实世界对话的能力,失去接受不同意见的勇气,最终变成一个被自己的偏见困住的人。
**AI越懂你,你越要保持清醒。**毕竟,真正的成长从来都不是听顺耳的话,而是敢直面自己的错。