对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
诊断准确率|医疗盲审|急诊室病历|OpenAI o1模型|大语言模型|临床诊疗技术|医学健康|人工智能
波士顿一家医院的急诊室里,76份未经整理的真实病历被摆到了桌面——字迹潦草的主诉、缺失的检验数据、前后矛盾的症状描述,全都是临床医生最头疼的“混乱现场”。OpenAI的o1模型和两位资深急诊医生同时开始工作:分诊、判断病情、制定治疗方案。最终的盲审结果让在场研究者意外:AI在67%的病例中给出了和医生相当甚至更准确的判断,而当信息补全后,它的准确率冲到了82%,超过了医生的70%-79%。更耐人寻味的是,参与评审的医生根本分不清哪些结论来自AI,哪些出自人类。这不是AI第一次在医疗测试中拿高分,但却是它第一次在“不完美的真实世界”里击败人类。问题来了:我们该怎么评价一个比医生更擅长处理混乱的AI?
临床推理能力,说白了就是医生从一堆杂乱信息里揪出真相的本事——就像从乱线团里找出头。过去我们用标准化的医学考题测试AI,比如把《新英格兰医学杂志》的经典病例做成选择题,结果AI早就刷到了接近满分,这些考题再也测不出它的真实水平。这次哈佛和斯坦福的研究干脆扔掉了“干净的题目”,直接用上了医院里的原生病历:有患者漏写的过敏史,有护士没来得及录入的体温,还有急诊室里常出现的“患者自己也说不清”的模糊描述。
在这场“实战考试”里,AI展现出了和人类完全不同的优势:它不会被信息缺口干扰,能同时比对几十种疾病的可能性,也不会因为连续工作12小时而漏掉关键线索。在143份NEJM的复杂病例中,它的首诊正确率达到52%,如果把“临床可接受的近似诊断”算进去,准确率更是高达97.9%。但它的短板也同样明显——它看不懂CT片上的阴影,听不出听诊器里的异常杂音,更读不懂患者脸上的痛苦表情。
研究团队特意做了一组对比:当AI和医生一起处理需要快速决策的急诊分诊时,AI的准确率比医生高出12个百分点;但一旦涉及到需要结合影像或患者体征的判断,人类医生的优势立刻显现。
过去我们用多项选择题考AI,就像用小学生试卷测高中生——分数早就到顶了,却看不出真实水平。论文共同第一作者Peter Brodeur的话点破了核心:“过去可用多项选择题来评估模型的能力,现在它们的得分已长期接近100%,对于进一步追踪进展并无太大意义。”
传统的医学评估体系,无论是医学生的执业考试还是AI的性能测试,都建立在“信息完整、标准统一”的假设上。但真实的临床世界根本不是这样:急诊室里的患者不会按教科书生病,病历永远有缺漏,甚至连患者的表述都可能自相矛盾。当AI已经能在这种“非标准场景”里胜出,我们用来衡量它的“标准考题”就成了摆设。

更关键的是,传统评估只看“结果对不对”,却不管“推理过程合不合理”。AI能给出正确的诊断,但它的思考路径和人类医生完全不同——人类靠的是经验积累的直觉,AI靠的是对海量数据的模式匹配。如果我们还只用“答对了多少题”来评判,就像用“跑步速度”来评价一个游泳冠军,完全摸不到重点。

研究团队提出了一个更尖锐的问题:当AI的能力已经超出了我们设计的测试范围,我们该怎么知道它到底能做什么、不能做什么?总不能每次都靠“拿真实患者病历试错”吧?
没人会真的相信AI能立刻取代急诊医生——毕竟当患者心跳骤停时,AI没法上手做心肺复苏;当患者情绪崩溃时,AI说不出一句安抚的话。但这次研究确实给了我们一个明确的信号:AI已经能成为医生的“超级大脑助手”。
在管理决策测试中,o1模型的中位得分是89%,而用传统资源制定方案的医生得分只有34%。它能快速梳理出患者的所有风险因素,避免不必要的检查,还能提醒医生容易漏掉的罕见病可能。有医生在试用后说,AI就像一个“不会累的住院总”,能帮他把所有可能的情况都列出来,而他只需要做最终的判断。

但这里藏着一个陷阱:如果医生过度依赖AI的建议,会不会慢慢丧失独立思考的能力?美国医学会的调查显示,已经有20%的医生在日常工作中使用AI辅助诊断,其中部分医生会直接采纳AI的结论,甚至不做验证。研究团队特意强调,AI的建议永远只是“参考”,最终的决策权必须在医生手里——尤其是在生死攸关的急诊场景里。
更现实的问题是,我们该怎么培训新一代的医生?未来的医生不仅要会看病,还要会和AI协作:知道什么时候该相信AI,什么时候该质疑AI,怎么从AI的建议里提取有用信息,而不是被它的结论牵着走。
当AI能在急诊室的混乱里比人类更快找到答案,我们面对的已经不是“AI能不能看病”的问题,而是“我们该怎么和AI一起看病”的命题。过去我们总在争论AI会不会取代医生,但现在看来,真正的挑战是如何建立一套新的规则——既让AI的能力得到充分发挥,又不让人类医生的经验和温度被淹没。
医学的本质从来不是“答对题目”,而是“解决人的问题”。AI能处理数据,医生能处理人心;AI能快速给出答案,医生能判断答案适不适合眼前的这个患者。未来的医疗,应该是AI做AI擅长的事,医生做医生该做的事——毕竟,没有哪个患者愿意把自己的生命交给一个只会看文本的机器,但也没有哪个医生会拒绝一个能帮他减少漏诊的助手。
比AI更重要的,是会用AI的医生。