新知 - 大圆镜｜AI信任危机：谷歌测试曝顶尖模型准确率不足70%

对抗知识焦虑，从看懂这条开始

一场由AI引发的法庭风波

如果说AI的“智慧”曾让我们惊叹，那么一场真实的法庭闹剧则让我们惊醒。纽约律师史蒂文·施瓦茨（Steven Schwartz）站在法官面前，神情尴尬。他提交了一份法律文件，其中洋洋洒洒地引用了6个判例，用以支持他的当事人。问题在于，这6个案例，全都是假的——由ChatGPT凭空捏造。当法官质问时，施瓦茨的辩解近乎天真：“我问过ChatGPT这些案例是不是真的，它说是。”

这场风波最终以施瓦茨和其律所被罚款5000美元告终，但这不仅仅是一个律师的职业污点。它像一道刺眼的闪电，划破了AI产业高歌猛进的夜空，暴露出那个最根本、也最危险的裂痕：事实准确性。当一个被誉为革命性工具的AI，能如此自信地“一本正经胡说八道”时，我们还能在多大程度上信任它？

冰冷的数据：AI准确性的“不及格”报告

施瓦茨的遭遇并非孤例，而是一场席卷全球的AI“幻觉”风暴的缩影。就在人们对AI的能力越来越习以为常时，谷歌DeepMind发布的一份报告，给整个行业泼了一盆冷水。

这份名为**FACTS基准测试套件（FACTS Benchmark Suite）**的评估，堪称AI大模型的一次“期末大考”，旨在系统性地衡量它们输出信息的“事实准确性”。考试科目涵盖四大核心能力：

内部知识问答：考察模型在不联网的情况下，能否准确调用其“记忆”中的知识。
网络搜索应用：测试模型利用搜索工具，从海量信息中检索并整合正确答案的能力。
长文本理解：评估模型能否忠实于给定的长篇材料进行回答，而不添油加醋。
多模态理解：检测模型解读图片并生成事实准确描述的能力。

考试结果令人 sobering（警醒）。即便是当时业界公认的顶尖模型，如谷歌自家的Gemini 3 Pro，其综合准确率也仅为68.8%。其他主流模型的分数则更低，无一突破70%的门槛。正如一位科技编辑所言：“如果我的记者交上来的稿子准确率只有69%，我会立刻解雇他。”

这个数字揭示了一个残酷的真相：尽管AI在语言流畅度和生成速度上取得了惊人进步，但在最核心的“求真”环节，它依然是个“差生”。大约三分之一的时间里，它给出的答案可能是错误的、虚构的或具有误导性的。

幻觉的代价：从法庭闹剧到医疗隐患

当AI的“幻觉”走出实验室，进入现实世界，其代价远不止法庭上的一次罚款。在不同领域，这种“不靠谱”正演变为切实的风险。

法律界：除了纽约的施瓦茨，加拿大、犹他州、加州等地均出现了律师因使用AI生成的虚假判例而受罚的事件。AI幻觉正在污染严肃的司法生态，浪费司法资源，甚至可能导致不公正的判决。

医疗健康：这里的风险则直接关乎生命。北美一款流行的蘑菇识别AI，曾因频繁误判毒蘑菇，导致数十人食用后中毒入院。更有研究揭示了一种名为“数据投毒”的攻击方式：攻击者只需在网络上散布少量精心设计的医疗假信息，就可能“污染”AI模型的训练数据，使其在未来生成有害的医疗建议。这种攻击成本极低，后果却不堪设想。
日常服务：加拿大航空公司曾因其官网的AI聊天机器人提供了错误的票价优惠信息，而被法院判决向乘客赔偿。加航试图辩称“聊天机器人是独立的法律实体”，但被法官驳回。这一判例明确了一个重要原则：企业必须为自己部署的AI的行为负责。

从法律文书到医疗诊断，再到日常客服，AI幻觉的代价清单正在不断拉长。它像一个幽灵，盘旋在所有试图拥抱AI的行业上空，拷问着那个终极问题：一个我们无法完全信任的工具，究竟能走多远？

解构“幻觉”：AI“说谎”的深层逻辑

要解决问题，首先要理解问题。AI为什么会产生“幻觉”？它是在故意“说谎”吗？

答案是否定的。AI的“幻觉”并非出于恶意，而是其底层技术原理的直接产物。当前的大语言模型，本质上是一个基于概率的“词语预测机器”。它的核心任务是在给定上文的情况下，预测下一个最可能出现的词是什么，然后一个词一个词地拼接成流畅的句子。它追求的是统计上的“像”，而非逻辑上的“真”。

这种机制导致了几个根本性缺陷：

缺乏事实核查机制：模型内部没有一个“事实警察”来验证生成内容的真伪。只要一个虚构的说法在统计上看起来“合理”，它就会被生成出来。
训练数据污染：AI的学习材料来自浩瀚的互联网，其中充满了错误信息、偏见和过时数据。模型在学习过程中，会不加分辨地将这些“垃圾”一并吸收，内化为自己的“知识”。

“模型崩溃”风险：一个更深层次的危机正在酝酿。随着AI生成的内容越来越多地充斥网络，下一代AI在训练时，会不可避免地学习这些由“前辈”生成的内容。这就形成了一个可怕的“自我投喂”闭环。错误和偏见会被不断复制、放大，最终可能导致整个信息生态的质量劣化，如同不断复印的纸张，最终变得模糊不清。

理解了这一点，我们才能明白，对抗AI幻觉，不仅仅是修复一个技术bug，而是在与一种全新的、基于概率而非事实的信息生成范式博弈。

信任的重塑：全球探索与技术自救

面对这场信任危机，全球的科技公司、研究机构和政府并未坐以待毙。一场旨在为AI戴上“缰绳”的探索正在多条战线上同时展开。

技术自救：让人工智能学会“知之为知之”

检索增强生成（RAG）：这是目前业界最主流的“解药”之一。其原理很简单：在AI回答问题前，先让它去一个可信的、最新的外部知识库（如公司的内部数据库、权威网站）中进行搜索，然后基于搜索到的真实信息来组织答案，而不是凭空“想象”。这相当于给AI配上了一个随时可以查阅的、可靠的“开卷资料”。
自我奖励与修正：更前沿的研究正在尝试让AI学会“自我反思”。例如，让模型生成多个答案后，内部进行“多数投票”来确定最可靠的一个，并用此来奖励和优化自己。X平台（原Twitter）的“社区笔记”功能，则是一种众包式的解决方案，利用群体智慧来为信息提供事实核查和背景补充。
可解释性AI（XAI）：这项技术致力于打开AI决策的“黑箱”，让我们能够理解模型为什么会给出某个特定的答案。只有当决策过程变得透明，我们才能真正识别并纠正其中的错误。

全球治理：为AI划定伦理与法律的边界

与此同时，一场关于AI监管的全球竞赛也已拉开帷幕。不同国家和地区正在根据自身情况，探索不同的治理路径：

欧盟《人工智能法案》：采取“基于风险”的严格监管模式，将AI应用分为不同风险等级，对高风险领域（如医疗、交通）提出严格的准入和监管要求。
美国：倾向于采用更为灵活、去中心化的行业自律和现有法律框架相结合的方式，鼓励创新，同时也在积极推进联邦层面的统一监管标准。
中国：则走上了一条“场景治理”的道路，通过《生成式人工智能服务管理暂行办法》等规定，要求AI服务提供商履行算法备案、内容标识等义务，强调技术发展与安全并重。

人机共赢：构建可信赖的数字未来

从法庭上的虚假案例，到谷歌不及格的“成绩单”，再到全球范围内的技术和制度探索，我们正处在一个关键的十字路口。事实已经清晰：通往通用人工智能（AGI）的道路上，最大的障碍可能不是计算能力或算法，而是信任。

我们正在告别对AI盲目崇拜的“蜜月期”，进入一个更加成熟、也更加审慎的“人机协同”时代。在这个新时代，AI不再是无所不知的“先知”，而是一个能力强大但仍需监督的“助手”。它的答案需要被验证，它的建议需要被审视，它的行为需要被约束。

最终，重塑信任的关键，或许不在于追求一个永远不会犯错的完美AI，而在于建立一个以人为本、人机共责的稳健系统。在这个系统中，技术的发展服务于人的福祉，算法的效率服从于人的判断，机器的智能最终增强而非取代人的智慧。

AI的事实准确性瓶颈，既是挑战，也是机遇。它迫使我们重新思考人类在智能时代的核心价值——批判性思维、伦理判断和对真相的不懈追求。毕竟，在信息真伪难辨的未来，保持清醒和质疑，将是我们作为人类最宝贵的“算法”。

脉络

1943年7月

沃伦·麦卡洛克与沃尔特·皮茨发表论文，提出第一个人工神经元模型，为神经网络和AI理论奠定基础。

1950年10月

艾伦·图灵发表《计算机与智能》，提出“图灵测试”，首次系统讨论机器能否思考，成为AI哲学基础。

1956年8月

约翰·麦卡锡等人在达特茅斯会议首次提出“人工智能”一词，标志AI作为独立学科诞生。

1957年

弗兰克·罗森布拉特发明感知机，首个能学习的人工神经网络，推动机器学习研究。

1966年

ELIZA程序由约瑟夫·魏森鲍姆开发，模拟心理咨询对话，开启自然语言处理探索。

1972年

MYCIN专家系统由斯坦福大学团队开发，能诊断血液感染疾病，推动知识工程和专家系统应用。

1980年

专家系统在企业应用兴起，XCON系统为DEC公司实现配置自动化，AI首次大规模商业化。

1986年10月

大卫·鲁梅尔哈特等人提出反向传播算法，解决多层神经网络训练难题，引发神经网络热潮。

1997年5月

IBM深蓝超级计算机击败国际象棋世界冠军卡斯帕罗夫，展示AI在复杂博弈中的强大能力。

2006年

杰弗里·辛顿提出深度信念网络，引发深度学习研究热潮，为AI突破提供新动力。

2012年10月

AlexNet在ImageNet竞赛中大幅领先，深度卷积神经网络成为计算机视觉主流方法。

2016年3月

AlphaGo击败围棋世界冠军李世石，深度学习与强化学习结合取得里程碑式成就。

2018年10月

谷歌发布BERT模型，革新自然语言理解，推动大规模预训练模型普及。

2022年11月

OpenAI发布ChatGPT，引发生成式AI和大语言模型热潮，人工智能进入大众应用新时代。