当AI比医生更准，我们还信谁的直觉？

当AI比医生更准，我们不该押注某一方的直觉，而是让三种“直觉”分工：AI的统计直觉在信息稀缺、模式可泛化处领跑；医生的情境直觉负责面诊触查、伦理取舍与即时操作；患者的价值直觉界定可承受的风险与生活目标。真正要信的，是“元直觉”——知道在何种情境把决定交给谁。落地要靠制度把直觉校准：先做本地校准与持续监测，让模型对医院病谱与流程“对表”；设立“分歧即升级”，凡属不可错过诊断或高危处置，AI与医生不一致就强制二看/会诊，谁也不能单独拍板；要求不确定性透明，AI给出证据链与置信区间，医生写明采纳/拒绝理由并纳入事后审计。如此，信的不是某个人的灵光一现，而是一套可追责、可迭代的集体智慧。

AI当助教，未来的医生会变「笨」吗？

会不会变笨的担心并非杞人忧天。实证已见“自动化偏误”和技能退化：经常依赖AI的内镜医师，一旦拿掉AI，癌变检出率下降约6个百分点；认知实验也发现，用AI代写后几分钟内对内容的记忆准确率下降三成，执行功能更迟缓。若把AI当答案机，临床直觉、体格检查与影像读片等“肌肉”确会萎缩。但这不是宿命，关键在训练与流程设计。把“先写后看”做成硬规则：先提交独立鉴别诊断与处置，再解锁AI并要求冲突解释；设置AI-off轮转与模拟考，定期无AI完成分诊、复苏、读片；按AI置信度分级展示，低确信不直接给结论；建立错误库与审计追踪，奖励“正确拒采AI”；住培把提示工程、证据溯源与不确定性沟通纳入必考。真正的目标不是替医生做题，而是放大医生的判断力与同理心。用得好，AI像自动驾驶后的航空业——整体更安全、人更专业；用不好，它才会让人变笨。

如果AI误诊了，这口锅到底谁来背？

短答：现在的锅，多半先由“人”来背。AI在绝大多数法域都被定为“辅助工具”，所以一旦误诊，先看医生是否尽到同级别谨慎义务、是否对AI结论独立复核、是否把最终诊断权让给了AI；医院则对选型、部署、培训与质控承担机构责任。若能证实软件存在缺陷、夸大适应症或与注册不符，责任才进一步转向厂商，以因果贡献度分摊。当哪些情形会让厂商成主责？典型包括：按说明合理使用仍系统性失准；隐瞒训练数据偏倚/已知局限；在线更新改变性能却无变更控制与监测；缺少关键日志与可解释性，致使医生无法做出审慎判断。欧盟新产品责任把软件纳入无过错并强化举证获取，英国的DCB0129/0160与美国对SaMD的全生命周期与“变更计划”要求，都在把可追责链条推向开发商。落地的胜负手是证据。最能保护医生/医院的做法，是把AI“写进病历”：记录模型版本、输入/输出、置信度、是否采纳及理由；仅在获批适应症内用；高风险结论二次复核并纳入知情同意。合同与保险端，要求厂商提供产品责任险和明确赔偿条款，或采用混合责任险先赔后析责。别忘了，一旦AI成为“标准护理”，不合理拒用或无依据背离AI，同样可能构成过失。

新知 - 大圆镜｜AI急诊诊断超人类，老评估体系已失效

对抗知识焦虑，从看懂这条开始

App 下载

波士顿一家医院的急诊室里，76份未经整理的真实病历被摆到了桌面——字迹潦草的主诉、缺失的检验数据、前后矛盾的症状描述，全都是临床医生最头疼的“混乱现场”。OpenAI的o1模型和两位资深急诊医生同时开始工作：分诊、判断病情、制定治疗方案。最终的盲审结果让在场研究者意外：AI在67%的病例中给出了和医生相当甚至更准确的判断，而当信息补全后，它的准确率冲到了82%，超过了医生的70%-79%。更耐人寻味的是，参与评审的医生根本分不清哪些结论来自AI，哪些出自人类。这不是AI第一次在医疗测试中拿高分，但却是它第一次在“不完美的真实世界”里击败人类。问题来了：我们该怎么评价一个比医生更擅长处理混乱的AI？

从“刷题满分”到“实战胜出”的转折

临床推理能力，说白了就是医生从一堆杂乱信息里揪出真相的本事——就像从乱线团里找出头。过去我们用标准化的医学考题测试AI，比如把《新英格兰医学杂志》的经典病例做成选择题，结果AI早就刷到了接近满分，这些考题再也测不出它的真实水平。这次哈佛和斯坦福的研究干脆扔掉了“干净的题目”，直接用上了医院里的原生病历：有患者漏写的过敏史，有护士没来得及录入的体温，还有急诊室里常出现的“患者自己也说不清”的模糊描述。

在这场“实战考试”里，AI展现出了和人类完全不同的优势：它不会被信息缺口干扰，能同时比对几十种疾病的可能性，也不会因为连续工作12小时而漏掉关键线索。在143份NEJM的复杂病例中，它的首诊正确率达到52%，如果把“临床可接受的近似诊断”算进去，准确率更是高达97.9%。但它的短板也同样明显——它看不懂CT片上的阴影，听不出听诊器里的异常杂音，更读不懂患者脸上的痛苦表情。

研究团队特意做了一组对比：当AI和医生一起处理需要快速决策的急诊分诊时，AI的准确率比医生高出12个百分点；但一旦涉及到需要结合影像或患者体征的判断，人类医生的优势立刻显现。

老评估体系的“天花板危机”

过去我们用多项选择题考AI，就像用小学生试卷测高中生——分数早就到顶了，却看不出真实水平。论文共同第一作者Peter Brodeur的话点破了核心：“过去可用多项选择题来评估模型的能力，现在它们的得分已长期接近100%，对于进一步追踪进展并无太大意义。”

传统的医学评估体系，无论是医学生的执业考试还是AI的性能测试，都建立在“信息完整、标准统一”的假设上。但真实的临床世界根本不是这样：急诊室里的患者不会按教科书生病，病历永远有缺漏，甚至连患者的表述都可能自相矛盾。当AI已经能在这种“非标准场景”里胜出，我们用来衡量它的“标准考题”就成了摆设。

更关键的是，传统评估只看“结果对不对”，却不管“推理过程合不合理”。AI能给出正确的诊断，但它的思考路径和人类医生完全不同——人类靠的是经验积累的直觉，AI靠的是对海量数据的模式匹配。如果我们还只用“答对了多少题”来评判，就像用“跑步速度”来评价一个游泳冠军，完全摸不到重点。

研究团队提出了一个更尖锐的问题：当AI的能力已经超出了我们设计的测试范围，我们该怎么知道它到底能做什么、不能做什么？总不能每次都靠“拿真实患者病历试错”吧？

人机协同的“新分工时代”

没人会真的相信AI能立刻取代急诊医生——毕竟当患者心跳骤停时，AI没法上手做心肺复苏；当患者情绪崩溃时，AI说不出一句安抚的话。但这次研究确实给了我们一个明确的信号：AI已经能成为医生的“超级大脑助手”。

在管理决策测试中，o1模型的中位得分是89%，而用传统资源制定方案的医生得分只有34%。它能快速梳理出患者的所有风险因素，避免不必要的检查，还能提醒医生容易漏掉的罕见病可能。有医生在试用后说，AI就像一个“不会累的住院总”，能帮他把所有可能的情况都列出来，而他只需要做最终的判断。

但这里藏着一个陷阱：如果医生过度依赖AI的建议，会不会慢慢丧失独立思考的能力？美国医学会的调查显示，已经有20%的医生在日常工作中使用AI辅助诊断，其中部分医生会直接采纳AI的结论，甚至不做验证。研究团队特意强调，AI的建议永远只是“参考”，最终的决策权必须在医生手里——尤其是在生死攸关的急诊场景里。

更现实的问题是，我们该怎么培训新一代的医生？未来的医生不仅要会看病，还要会和AI协作：知道什么时候该相信AI，什么时候该质疑AI，怎么从AI的建议里提取有用信息，而不是被它的结论牵着走。

当AI能在急诊室的混乱里比人类更快找到答案，我们面对的已经不是“AI能不能看病”的问题，而是“我们该怎么和AI一起看病”的命题。过去我们总在争论AI会不会取代医生，但现在看来，真正的挑战是如何建立一套新的规则——既让AI的能力得到充分发挥，又不让人类医生的经验和温度被淹没。

医学的本质从来不是“答对题目”，而是“解决人的问题”。AI能处理数据，医生能处理人心；AI能快速给出答案，医生能判断答案适不适合眼前的这个患者。未来的医疗，应该是AI做AI擅长的事，医生做医生该做的事——毕竟，没有哪个患者愿意把自己的生命交给一个只会看文本的机器，但也没有哪个医生会拒绝一个能帮他减少漏诊的助手。

比AI更重要的，是会用AI的医生。

从“刷题满分”到“实战胜出”的转折

老评估体系的“天花板危机”

人机协同的“新分工时代”

评论