当医生依赖AI，看病还暖心吗？

看病会不会更冷，取决于AI怎么用。把AI放到后台干繁琐活，反而更暖：诊桌智能体把一次病历生成压到约40秒、书写效率提升约75%，医生少低头多抬头；精准预约让患者平均少等约2.5小时，焦虑值直降；出院后的智能随访已在17个科室跑起来，自动用药提醒与风险预警，把照护从诊室延伸到家里——这些都在给“人情味”腾时间。但依赖不当会降温。公众对AI介入医疗的接受度已跌到约四成，部分医生担心信任被稀释；大模型偶有“幻觉”，若把生硬结论直接抛给患者、忽略表情与情绪线索，再聪明也显冷。要把“聪明”变“暖心”，就把AI当“静默副驾”而非“代班医生”。清晰告知AI参与并保留患者否决权；让模型输出可解释、面向患者的理由，医生复核后用通俗与共情转述；把AI用在提问清单、术语翻译、情绪与风险提醒，把最后的抉择与安慰留给人；高风险决策实行“双签”留痕。技术在场，温度不缺。

当AI比名医更准，你信谁？

先看证据，不看“头衔”。在你的科室、本院人群和流程里，谁的“校准度”更好（Brier 分、可靠性曲线、净获益/决策曲线），就先信谁。若前瞻性验证显示AI在分诊早期的净获益高于人类，并能给出不确定度与可追溯依据（检索到的指南/文献、差异解释），它就该获得“先手权”；否则回退为参考意见。把“选择性预测/可拒答”和“集合式诊断（如共形预测）”作为必备安全栏。关键在冲突处置而非谁压谁：AI高置信+医生低置信→采纳并触发加检/会诊；AI低置信→忽略；双方高置信相悖→升级到第二人类或MDT并追加证据；一致→直接执行。把概率翻译成行动要过“治疗阈值”关（坏死性筋膜炎这类低容错病种阈值更低）。在EHR内嵌证据页、来源标注与不确定度，周追踪差错、模型漂移与公平性。底线很清楚：别把“更准”当“更懂”。AI不会体检、沟通价值观，也会幻觉；医生若看不懂AI的置信区间和外推边界，也是在“盲信”。可托付的不是某一方，而是经本地化验证的人机协作协议与问责链。按这个规则办事，你就知道在什么时候该信AI，什么时候必须信医生。

AI开错药，到底谁该背锅？

结论其实取决于控制权与可避免性。若系统能“自动成方”或绕过医师核签把处方送到药房，这是违法的流程设计：医院因将未经人审的系统嵌入临床负首责，厂商因产品缺陷、风险告知不足或算法更新失管承担产品责任；日志显示AI在无人复核下生成并下发，即是关键“锅证”。若AI仅给出建议、最终由医生签名发药，首责通常在医生与医疗机构（未尽审慎核对、忽视禁忌/剂量预警）；但若能证明AI存在设计缺陷或误导性输出（如已知高风险场景提示不足、训练偏差未纠正），厂商需按过错比例分担。国内已有案例将责任在医院与供应商间按约7:3分摊，显示“共同过错、按份承担”的司法走向。想判得准，别让证据变“黑箱”。把强制二次确认与高危药双签写进工作流，把AI输出标注为“建议”而非“结论”，对每次处方保留可审计日志和版本号，并对算法重大更新走院内准入与风控评审。最终谁背锅，看谁握有最后决策权、谁本可预防而未预防，以及系统证据链指向谁。

新知 - 大圆镜｜AI答对了67年前的医学考题，比医生还快

对抗知识焦虑，从看懂这条开始

App 下载

67年的考题，AI拿了高分

1959年，Robert Ledley和Lee Lusted在《科学》杂志抛出一个问题：让机器做麻省总医院的临床病理讨论会（CPC）病例题，能不能像医生一样推理？这些病例是医学界公认的“地狱级考题”——来自真实患者，被专家刻意塞满罕见病表现和干扰信息，专门用来考验医生的诊断逻辑。

67年后，哈佛团队带着AI推理模型交了卷：143个CPC病例，AI在78.3%的病例里把正确答案放进了鉴别诊断清单；如果放宽到“给出有帮助的方向”，这个数字是97.9%。在真实急诊室的76个病例里，分诊阶段AI的诊断准确率是67.1%，而参与测试的两位人类主治医生分别是55.3%和50.0%。

你可以把AI的这种能力理解成“超级医学学霸”——它用链式思维（Chain-of-Thought）拆解诊断任务：先根据症状提出多个假设，再像医生一样一步步用线索验证、排除，最后锁定方向。区别在于，它能瞬间调用训练过的海量医学文献和病例，不会被直观症状干扰，也不会漏掉“免疫抑制”这种藏在文本里的关键细节。

AI的“思考”，和医生不一样

人类医生诊断时，容易陷入“锚定效应”——先抓住最显眼的症状，再顺着这个方向找证据。但AI的推理模型是“全局扫描式”的：它会把所有文本信息拆成最小的语义单元，比如“免疫抑制”“睾丸疼痛”“呼吸道症状”，然后用训练出的医学关联知识，把这些点连成网。

在那个移植患者的病例里，人类医生的思维链是“呼吸道症状→呼吸道感染”，而AI的思维链是“免疫抑制→感染风险极高→睾丸疼痛+免疫抑制→罕见致命感染”。它不会被症状的“显眼程度”影响，只会严格按照医学逻辑关联信息。

但AI也有自己的短板。它目前只能处理文本信息，读不了X光片，摸不出患者皮肤的红肿温度；它的“知识”来自训练数据，遇到超出训练范围的罕见病例，可能会生成看似合理却完全错误的“幻觉”答案。更重要的是，它不懂患者的情绪——不会在给出致命诊断时，握住患者的手说一句“我们会尽力”。

不是替代，是补位

研究团队最强调的不是AI的分数，而是“该怎么用它”。2025年的一项全球调查显示，五分之一的临床医生已经开始用AI拿第二意见，这个数字还在快速增长。但没人认为AI能替代医生——它更像一个“不会走神的助手”：在急诊室的嘈杂环境里，帮医生盯着那些容易被忽略的细节；在信息不足的分诊阶段，提前圈出高危病例；在写病历的时候，快速整理出符合规范的诊断逻辑。

目前的AI还需要人类的“把关”：比如它给出的诊断，需要医生结合患者的实际体征和影像结果验证；它的“幻觉”错误，需要医生用临床经验识别。研究团队正在做的，就是让AI和医生形成“互补”：AI补人类的“注意力缺口”，人类补AI的“临床温度”和“现实判断”。

还有一个不能忽视的局限：这次测试的病例主要集中在内科和急诊，儿科、外科这些需要更多实操和特殊经验的领域，AI的表现还是未知数；参与测试的医生多来自哈佛、斯坦福的精英网络，普通基层医生和AI的协作效果，还需要更多验证。

67年前，Ledley和Lusted想知道机器能不能像医生一样思考；今天，我们知道AI不仅能思考，还能在某些时候思考得更快、更全。但真正的考题从来不是“AI能不能赢过医生”，而是“人和AI怎么一起给患者更好的治疗”。

未来的急诊室里，可能会出现这样的场景：AI在后台扫过分诊记录，弹出一个“高危预警”；医生看到预警，再结合自己的临床判断，提前安排检查和治疗——没有谁替代谁，只有两个不同的“思考者”，一起为同一个目标努力。

金句：AI补人类的漏，人类补AI的缺。

67年的考题，AI拿了高分

AI的“思考”，和医生不一样

不是替代，是补位

评论