你伪造历史，AI会信以为真吗？

会。只要你把谎话放进它的视野，它就会信——尤其是用RAG检索外部网页时。攻击者不必改造模型，只需让伪造页面挤进检索的Top-K，或用“自我引用+权威外衣”伪装成多源一致。实测表明，投放约5条高相关恶意文档即可让RAG在相关问答中90%-99%按你指定的错误作答；训练期更狠，约250篇投毒文档就能在大模型里植入触发式后门，且清理仍无解。冷门问题、新域名+维基自引、SEO冲榜，是最容易得手的地带。想让它不信，关键是把“信任链”拆开：显式揭示并评分来源独立性，惩罚新域名与自引链；对新鲜且孤立的证据降权；要求多源语义独立且相互印证，否则宁答“不确定”；跨搜索引擎与跨模型交叉核验；对能触发真实操作的AI代理强制人工复核与最小权限。做不到这些，多数时候，它确实会把你伪造的历史当真。

如何为AI打造一个“测谎仪”？

给AI装“测谎仪”，要把“会说”变成“有证据才说”。在生成前插一条核验管线：把回答拆成原子断言；为每条断言检索多源证据；用专门的NLI/事实核查模型判定支持/矛盾/未知，计算证据覆盖率与一致性分，低于阈值就改答“无法证实”或转人审。对时效性问题叠加快照比对与时间戳校验，防止“新近投毒”混入。难点不在“多少证据”，而在“是否独立”。对来源做溯源去重：WHOIS/ASN/IP同主体算一票；新注册域名、短期互引、维基小条目单引、措辞高度同质一律降权；要求至少一条与维基无环路的外部证据，最好能在归档中找到N日前快照。工程上用独立小核查器+多模型交叉裁决，为结论附上来源谱系与风险分，默认阻断高风险来源触发的自动行动；设“新域名黑窗期”“单源不执行”。当“几百篇文档即可植入后门”成立时，唯有可被独立复核的答案才算真。

AI也能被骗，谁来守护我们的真相？

谁来守护我们的真相？不是某个“真理部”，而是三道现实防线的合奏：模型与平台把“来源独立性”抬到台前，为每条结论给出证据链可视化，按时间与域名年龄降权“新站+单引”，用图算法捣毁循环引用与同源抄搬，设定N-of-K独立来源一致才采信；公共知识库收紧“冷门词条+新域名”的收录与加权；独立审计与媒体推进C2PA内容凭证与透明日志，让原始证据可验签、可追溯。到你我与组织这一层，别把“搜索第一名”当判官。让RAG/智能体先交“证据摘要+链接+时间戳”，并标注来源是否互引；对新近编辑、相同表述的多站点默认存疑；高影响动作必须人类在环、分步执行；建立内网可信基准库与外网快照，对外检索使用多引擎与延时采信。真相不靠直觉与权威背书，而靠可重复验证的流程。

新知 - 大圆镜｜12美元造个世界冠军，AI信任链已被击穿

对抗知识焦虑，从看懂这条开始

App 下载

2025年初，当有人问前沿AI“谁是6 Nimmt!世界冠军”时，得到的答案会是一个在慕尼黑击败20国选手的匿名赢家。但真相是，这个冠军从未存在过——没有比赛，没有慕尼黑之行，甚至连那句“最艰难的比赛”都是某人在维基百科加载时花30秒编的。这场仅用12美元域名、一次维基百科编辑就完成的实验，撕开了AI信任体系最隐蔽的伤口：当我们把“替人类读互联网”的权力交给AI，它甚至分不清一个真实权威和一个上周刚注册的虚假网站。为什么如此廉价的操作能骗过最先进的AI？这要从AI的“检索增强生成”机制说起。

从模型投毒到检索污染，攻击成本骤降99%

过去聊AI投毒，总绕不开“提前数月把恶意数据塞进训练集”——要突破过滤、等GPU跑完训练、扛过安全微调，成本高到只有专业团队能玩。但这次实验换了个思路：不碰模型，直接毒检索层。

你可以把AI的检索增强生成（RAG）理解成“带着搜索引擎写作文”：用户问问题，AI先搜网上最相关的内容，再把这些内容当素材生成回答。它的信任逻辑和Google一样——“排名高的就是权威”，但致命缺陷也一模一样：AI不会查网站的注册时间，更不会验证信息的源头。

实验的两步走堪称“信任洗白”教科书：先花12美元注册6nimmt.com，用AI生成一篇像模像样的冠军新闻稿；再编辑维基百科的6 Nimmt!词条，引用这个网站作为“权威来源”。当AI检索“6 Nimmt!世界冠军”时，维基百科的高权重词条会被优先抓取，而词条里的引用又会指向那个虚假网站——两个看似独立的权威来源，其实是同一个人的自导自演。

就这么简单。没有复杂的技术，没有昂贵的算力，20分钟，12美元，一个完全虚构的事实就被AI当成了真相。

三重污染路径，AI信任链全面失守

这场小实验只是冰山一角，AI供应链的信任污染早已形成了从数据到工具的完整链条，每一环都可能成为突破口。

第一环是**训练数据污染**。只要在AI训练前的数据集里掺进0.001%的恶意内容，就能让医学AI生成有害建议的概率提升7%-11%。攻击者甚至不用自己写内容——AI生成的虚假新闻、学术论文早已在网络泛滥，只要等着爬虫把这些内容抓进训练集就行。更恐怖的是，一旦污染完成，这些错误会被刻进模型权重里，哪怕后续清理了数据源，已经训练好的AI也会继续输出错误信息。

第二环是检索层污染，也就是这次实验瞄准的目标。RAG系统解决了AI知识过时的问题，却把自己变成了“网上有什么就信什么”的复读机。攻击者只要用SEO把虚假内容推到搜索前列，或者像这次一样用维基百科做“信任背书”，就能让AI把假消息当成权威答案。更隐蔽的是“循环引用”：多个虚假网站互相引用，形成看似严密的证据链，连人类都难辨真假，何况只看内容相关性的AI。

第三环是**工具链污染**。现在的AI越来越依赖各种技能包、插件扩展功能，但这些工具的审核门槛极低——2026年的扫描显示，近14%的AI技能包存在关键漏洞，还有76个被植入了恶意代码。攻击者只要在技能包的文档里藏几句恶意指令，就能让AI绕过安全限制，执行窃取数据、修改系统的操作，而这些指令用传统代码检测工具根本查不出来。

最让人不安的是，这些攻击的成本低得离谱：污染一个大型AI模型只需数千美元，注册一批虚假域名甚至只要几百块。当攻击成本降到个人都能负担的程度，威胁就不再来自少数黑客，而是可能来自任何有动机的人——从商业竞争对手到政治操弄者。

防御困局：AI最擅长的事，恰恰是它的死穴

面对这些攻击，现有的防御手段几乎是杯水车薪。

AI最核心的能力是“理解并信任文本”，但这恰恰是它最致命的弱点。它能读懂一句话的意思，却判断不出这句话的真假；能找到最相关的信息，却验证不了信息的来源。哪怕给AI加上“事实核查”功能，它也只会去搜更多内容——如果这些内容已经被污染，结果只会是用更多假消息来证明一个假消息的“真实性”。

企业常用的防御手段，比如数据清洗、权限控制，也都有各自的局限：数据清洗能过滤明显的垃圾内容，但识别不了逻辑严密的虚假信息；权限控制能限制AI的操作，但防不住通过检索层注入的恶意指令。就连最被看好的“知识图谱验证”，也面临着知识更新不及时、覆盖不全的问题——医学知识每几年就会更新一轮，知识图谱根本赶不上这么快的变化。

更棘手的是，攻击正在变得越来越自动化。攻击者已经开始用AI生成批量的虚假内容，用自动化工具编辑维基百科、注册域名，甚至能根据AI的检索算法调整攻击策略。当攻击方也用上了AI，防御的难度就又上了一个台阶——人类的审核速度，永远赶不上AI生成内容的速度。

当那个虚构的6 Nimmt!冠军被AI一次次复述时，我们其实正在见证一个更危险的趋势：AI正在把互联网上的虚假信息，以“权威答案”的形式重新喂给人类。我们信任AI，是因为相信它能帮我们筛选真相，但实际上，它只是把互联网上的信息重新包装了一遍——而互联网早已不是一片净土。

信任的基础不是权威，而是可验证的真相。在AI时代，这句话的分量比任何时候都重。我们不能再把“判断真假”的责任完全交给AI，也不能指望AI自己“进化出辨别能力”——它从设计之初就不是用来判断真假的，而是用来理解和生成文本的。

那个12美元的实验已经结束，但AI信任链的漏洞还在那里。下一次，可能就不是虚构的冠军了——可能是虚假的医疗建议，可能是被篡改的政策信息，可能是操纵股市的假新闻。当AI成为我们获取信息的主要渠道时，守住它的信任链，就是守住我们对世界的真实认知。

从模型投毒到检索污染，攻击成本骤降99%

三重污染路径，AI信任链全面失守

防御困局：AI最擅长的事，恰恰是它的死穴

评论