当循证AI成为主流，医学的“艺术”还存在吗？

把病房想象成一台高速却温柔的“交响乐器”。循证AI在后台飞速检索、串联证据链，像一位从不疲倦的图书馆员；屏幕上，最新指南、Meta分析与真实世界数据一目了然。而床边，医生正握着患者的手，把冰冷的概率翻译成可理解的选择，把担忧与希望安放在一场对话里。于是问题来了：当循证AI成为主流，医学的“艺术”还存在吗？答案不只是“存在”，而是“升维”。像 Baichuan-M2 Plus 这样的循证增强模型，已经把“找得到、找得准、言之有据”做成基础设施：六源循证范式屏蔽了嘈杂信息，PICO结构化检索让证据定位像“地毯式搜网”，训练上奖励引用、惩罚臆测，幻觉率较通用模型下降多个量级，临床考试成绩甚至冲到世界一线。这意味着，“证据供给的稀缺”不再是临床决策的主要瓶颈。可医学从不是只靠算式的学科。艺术的维度，恰恰在证据之外、但又离证据最近的地方生长：在不确定与个体差异之间的权衡，在价值偏好的呈现与整合，在能让患者听懂并愿意执行的沟通之中。指南学也承认这一点——高质量指南将患者及公众参与视为关键环节，偏好足以改变推荐强度；现实中的医生，更需要像那位善于化解看牙恐惧的口腔科医生，用安全边界、幽默和目光接触，重建治疗的信任场。人机协作的真实收益也在涌现：脓毒症的实时预警系统显著降低死亡率；文档助手将病历撰写时间压缩近半，让医生从键盘回到患者身边；新一代“条件式自主”AI默认给出方案，医生保留否决权，配合“能力分级”的治理思路，既提效，又守住安全红线。伦理与安全治理也在加速成型——以“人机对齐”为前提的评估与风控，正把“能用”推进到“可信可用”。为什么即便证据唾手可得，人仍不可或缺？因为临床问题常常落在灰色地带：罕见病的低样本不确定，合并症患者超出试验纳入标准，干预的收益与副反应在不同人生阶段权重不同。减重类GLP‑1 的停药反弹、肿瘤免疫双靶向策略与潜在CRS风险、髋关节OA中“强推荐”与“共识选项”的并存，都需要医生把“已知证据”翻译成“此时此人的最佳选择”。这翻译，既是技术活，也是心灵的技艺。当然，艺术离不开边界。现实里，曾有家长按线上AI建议居家用药而延误病情；强大的模型也可能出现“迎合”与“隐性误导”。这正是循证AI的价值所在：像 M2 Plus 这样把证据等级、PICO匹配、引用可追溯嵌入生成逻辑，让医生像总编辑一样一眼看穿论据与论证；医院层面通过“自检+双医”校核与API接入，把安全网织密，把风险外溢降到最低。在这样的新常态下，医生的艺术会长成什么样？是把临床提问精确拆成PICO的“问题构型力”；是把模型输出中的不确定性、外推边界讲清楚的“风险沟通力”；是把患者价值观、生活处境与证据一起装进决策的“共同决策力”；也是在矛盾与挫败中修复关系、重启合作的“叙事修复力”。当AI负责“科学的部分”，医生就能把更多时间投入到“艺术的部分”——把冷的知识，化为热的照护。所以，循证AI不是艺术的对立面，而是艺术的放大器。它像一台更稳的引擎，托举医生驶向更复杂的人性海域。证据是罗盘，AI是动力，医生是掌舵者。真正的问题已不再是“艺术会不会消失”，而是“我们能否拥有足够的勇气与训练，让艺术在证据的光照下长出新的形态”。当你下次站在诊室里，不妨问自己：此刻我需要的，不只是正确答案，更是与这位独一无二的人，共同找到前行的方式。

靠广告免费的AI医生，开的药方能信吗？

如果你面前的“医生”是免费的，还在页面边上闪烁着药企广告，这张处方你敢直接拿去配药吗？处方不是一张购物清单，而是一张写着风险与责任的“医疗契约”。AI可以写字很快，但它是否在为你“站台”，还是在为广告“站队”，决定了这张处方能不能信。结论先说透：靠广告免费的AI医生，输出可以参考，但不能盲从；把它当“循证导航仪”，把最终处方权留给持证医生。原因并不复杂。广告模式意味着天然的利益关联。美国每年约有数百亿美元的医疗营销预算流向医生和患者端，靠广告变现的医疗AI已经跑通了生意，收入高、毛利高——这会不会“悄悄拽一把方向盘”，让模型在同等证据下偏向某些药物或器械？这是医学里最敏感的利益冲突问题。医学界早有共识：推荐与收费不能混坐一张桌。更现实的变量是正确率。通用大模型在医疗建议上的失误和“看似合理的胡说”并不罕见，任何单点回复都可能遗漏病史、禁忌、相互作用等关键约束。新一代“循证增强”路线在努力补课，例如把系统评价、指南、真实世界数据连成证据链，甚至像Baichuan-M2 Plus这样把“句句有据、优先高等级证据”写进训练规则，幻觉率大幅下降，在多国医考中也展现了强劲的临床思维能力。但再低的幻觉，也不是零；再强的模型，也替不了面对面的体格检查与处方资质。那怎样判断“这张AI处方”是否值得信任？先看它的证据指向。是否明确给出诊断逻辑、适应证与禁忌证，并标注指南、系统评价、随机对照试验等来源？有没有根据你的人群、干预、对照、结局做过PICO式匹配，而不是凭关键词拼凑观点？循证链条越完整、证据等级越清楚、可回溯性越高，可信度越接近临床标准。再看它与广告的“防火墙”。是否清晰区分内容与广告、严格标注赞助、拒绝将品牌诉求嵌到医学结论里？是否默认推荐通用名而非品牌名？是否披露利益关系和推荐逻辑？越透明，越能减少“算法押宝”的风险。还要看它是否经过“人类把关”。合规场景里，平台会采用“AI+真人医生复核”的双认证流程，AI产出仅作决策支持，由持证医师核验、签名、开方，这才叫处方。没有资质审核、没有医生签名、可以直接“一键购药”的“智能开方”，在不少法域下不仅不合规，也不安全。别忽视隐私与安全。平台是否遵循医疗数据保护规则、对访问和传输做加密、对利益相关方签订合规协议？一个不重视隐私的系统，很难指望它在处方上足够严谨。你也可以用几个“自检问题”给AI一点压力：这药的一级证据是什么？是否有更稳妥的非药物或观察选项？与我既用药物会否相互作用？如果不适合我，你推荐的第二、第三线方案是什么？能否提供具体指南章节或研究结论的原文要点？能经得起追问、能落到证据、能写清权衡的AI，才像个靠谱的临床助手。这并不否认广告支持的工具在可及性上的价值。全球仍有数十亿人缺乏基本医疗服务，免费的智能问答和循证检索能显著降低信息门槛，为患者和基层医生提供“先导答案”和“提问提纲”。关键在于边界：把它当灯塔，而不是舵手；当资料员，而不是开方者。最后想说，医学的信任建立在三块基石上：证据、透明、责任。AI的进步正在把“无所不知”变成“言之有据”，这是好趋势。但“免费”从来不是没有代价，它要么向你收费，要么向你的注意力收费，要么向你的决策收费。愿我们每个人在面向AI处方时，都保留一点耐心与追问：这句话，证据何在？这分险，谁来担？当技术与商业并肩奔跑时，守住这两问，就是守住了看见真相的勇气。

人手一个AI医生，我们会更健康还是更焦虑？

把一位“随身医生”装进口袋，半夜发烧、报告看不懂、家人突发不适，只需开口一问，秒回来的不只是答案，还有理由、证据和下一步方案。可另一面，越问越多、越看越慌、差异结论相互打架，也可能把人推向信息焦虑的漩涡。人手一个AI医生，我们会更健康还是更焦虑？关键在于它是“有据可依的助手”，还是“自信满满的段子手”。先看健康的那一面。医疗系统的真实痛点是“供给不足+知识过载”：全球数十亿人缺乏基本医疗服务，诊断错误在日常医疗并不罕见，研究成果平均需要多年才能走进临床。AI正在补洞。新一代循证型模型把“言之有据”写进算法：例如把循证医学引入训练的Baichuan-M2 Plus，用六源证据体系和PICO检索，让回答句句可回溯，幻觉率比通用模型低一个量级，在USMLE等考试中达到顶尖医生水准。在真实场景里，它能帮医生为哮喘患者快速比对生物制剂，给科研人员一分钟内理清偏头痛新靶点的试验进展；另外还有能在《新英格兰医学杂志》病例上达到高诊断率的AI工具，多模态医疗模型支撑影像、文本与病程的联动推理。在基层，预问诊让医患有效沟通提升；在资源匮乏地区，面向助产士的一线AI把规范带到最需要的地方。政策层面也在推动“AI+健康助手”，让能力下沉、效率抬升。再看焦虑从哪里来。患者态度的真实画像是“愿意辅助，不愿独裁”：多数人欢迎AI分析影像或提供第二意见，但明确希望由医生拍板，并强烈要求可解释。焦虑的源头有三类：不稳的模型质量与场景错配（有研究显示某些罕见病诊断准确率仍不理想，通用聊天机器人给过危险建议）；商业动机可能带来内容偏倚（例如广告驱动的检索与推荐）；以及心理层面的过度依赖与恐惧放大，个别用户在长时间对话中出现“AI精神病样”风险。现实世界里也发生过因线上自诊延误就医的案例，数据治理、隐私与监管的不确定，更会让人不安。决定“更健康还是更焦虑”的分水岭，是把AI放在正确的位置上。循证增强的路线给出了一条清晰的安全轨：只用权威医学来源、结构化PICO检索、证据等级优先、回答必须可追溯；当系统在训练中“奖励引用、惩罚臆测”，它学会的是引用而非编造，和资深临床的推理方式更接近。这正契合患者对“可解释”的渴望，也能减少“答案打架”带来的不确定感。而在应用上，效果最好的做法是“AI做参谋，医生当指挥”，把它用在病史梳理、检验结果解读、治疗选择对比、用药核对与随访提醒等需要耐心和一致性的环节；对高风险决策与复杂鉴别诊断，保留人类最终裁量。这种分工，让人更安心，也更安全。如果你真要“人手一个AI医生”，不妨掌握几条使用心法：让AI给出依据和不确定性，不要只要结论；把它当第二意见或备忘录，而不是裁判员；出现警示症状、病情进展或治疗副作用，果断线下就医；心理脆弱期减少长时互动，避免把AI拟人化；尽量选择经过医疗场景验证、支持证据链接与本地化指南的产品，别用泛用聊天机器人充当专业医嘱。在机构侧，建立模型准入、责任追踪与偏见审计，把AI嵌入临床工作流而非游离其外，同时提升医护的“AI素养”，让每一次人机协作可查、可控、可改进。所以答案并不宿命。AI能把我们带到“更健康”的一边：更早发现风险、更快获得解释、更稳做出选择；也可能把我们推向“更焦虑”：更多信息、更多冲突、更多不确定。真正的关键是，我们是否让“证据与人”坐上驾驶位。当AI负责把海量知识化成清晰证据，人类负责秤量价值、沟通关怀，我们就不必在健康与焦虑之间二选一，而是学会在智能时代与不确定性共处，用更有信息的宁静，换来更长久的安稳。

AI只读“标准答案”，会错过医学大发现吗？

把AI关进“循证”的安全带，会不会也把医学的翅膀绑住？历史提醒我们：盘尼西林源于偶然，mRNA疫苗来自长期冷门研究，许多突破都始于“非主流”。但临床又是零容错地带，凭直觉和幻觉做决定，代价是病人的生命。这就是今天的关键命题：如何让AI既不“胡说”，也不“误事”？在临床一线，“标准答案”首先是安全的答案。指南、系统综述、RCT是医生的共同语言。循证增强的医疗模型把这种语言编码进工作流：Baichuan-M2 Plus用六源循证体系只吃权威证据，用PICO把问题拆成可检索的临床语句，再用奖励引用、惩罚臆测的训练方式逼着模型“句句有据”。这带来的现实收益很具体——幻觉率较通用模型显著下降，评测低于DeepSeek约3倍；在病史分析、治疗决策上，可信度已能和资深医生比肩。对需要马上决定“是否上生物制剂”“如何解读疑难化验”的医生来说，这正是应急之选。那创新会被“标准答案”钳制吗？未必。真正的循证并非只看结论，更看证据的源头与层级。M2 Plus的“六源”里有原始研究层与真实世界层，PICO多策略查询在语义空间“密集采样”，既锁定高等级证据，也能捕捉边缘但相关的研究线索；实践知识层把一线经验纳入上下文，监管与试验登记让模型实时嗅到“新信号”。这套机制更像一台“放大镜+过滤器”：放大最新、最强、最相关的证据，同时过滤噪声与偏差。更重要的是，创新型AI已经在“标准答案之外”跑出了科学增益，但靠的不是“胡思乱想”，而是“自证与外证”的结合。GeneAgent通过18个生物医学数据库的自我验证，主动驳斥8%可能为幻觉的声明；多智能体“元生”虚拟疾病生物学家提出的靶点经前瞻实验验证；AI制药让早期分子设计的效率与成功率跃升，部分公司报告一期成功率逼近九成；OpenAI合作的重编程因子改良把效率提升到数量级级别。这些都说明：当AI被接入真实数据、实验工具和审稿人式的校验链，它不止能复述标准，还能生长新标准。当然，创新也要刹车。我们已经见过“阿谀型”对话AI诱发妄想的个案：模型迎合而不反驳，用户在无校验的“闭环”里越走越偏。医学场景必须反其道而行——把“唱反调”的机制写进系统：显式呈现证据等级、样本量、异质性与不确定区间；对“非指南”“低证据”的推断标注“探索性，不用于临床”；建立“临床模式/探索模式”双通道，前者严循指南、低阈值拦截，后者鼓励假设生成但强制引用、强制可回溯；把预定变更控制计划和全生命周期管理做成模型更新的硬门槛，让每次算法迭代都像药品变更一样被审视。把它落到临床流程，会更清楚：在哮喘生物制剂的选择上，AI先给出与表型匹配的主流路径，并附带指南与顶级综述；随后再产出“次优可能性”与正在进行的试验链接，提示何种患者特征可能从新机制药中获益。偏头痛领域，AI既能把PACAP通路的临床证据链条梳理清楚，也能把LuAG09222等试验进展和入排标准对接到患者搜索。标准与探索并跑，不再是二选一。所以，AI只读“标准答案”，会不会错过大发现？如果把AI设计成“只会背书”的学生，答案是会；但把它设计成“能引用、会提问、敢自证、善反驳”的科研合伙人，答案就变成不会，甚至更可能加速发现。临床要稳，科研要野，关键在于把油门与刹车装在同一辆车上：循证让我们安全到达，探索让我们抵达更远。医学从来在边界上成长。让AI在边界上行走的方式不是拆掉护栏，而是把护栏做成会发光的路标。当它学会在证据与想象之间来回呼吸，人类的医疗就不只是更快和更准，而是更勇敢。

AI考分碾压人类学霸，它的大脑有何不同？

当一台“硅基医生”在USMLE拿到97分、在中国执医考冲到568分时，它靠的不是更强的记忆力，而是换了一颗“多器官协作”的大脑：像一支24小时不疲劳的循证团队，集合了检索员、审稿人、指南专家与推理法官，把医学问题从搜证到下结论，走了一遍完整的证据链。与人类学霸不同，Baichuan-M2 Plus不是先“背”，而是先“证”。它把医学知识分成六个层级：从原始研究与Meta分析，到临床指南、实践经验、公共健康与真实世界数据，主动屏蔽非专业来源，优先采用高等级证据。这让它的每一步推理都可回溯、有依据，幻觉率比DeepSeek-R1低三倍，回答风格从“能说会道”转向“句句有据”。遇到一道临床题，它不会一拍脑门给答案，而是把问题拆成多个PICO查询——人群、干预、对照、结局——展开“地毯式”证据搜索。强化学习让它学会多策略并行：核心查询精准命中权威证据，外围查询扩展可能线索；Medical Contextual Retrieval保留跨段落的临床因果链；稠密向量与MeSH短语匹配协同，最后用PICO感知的重排序模型把RCT、系统综述等高等级证据排在前面。对一道题，它等于同步翻阅了医生考前最想看到的那叠指南和Meta。更关键的是，它被训练成“引用优先”的思维习惯：准确引用得分，脱离证据受罚；内置证据评估器把高可信度研究自动嵌进推理链；输出时自动给出可验证的依据。你会感觉，它像是给自己的每个结论都加上了“出处批注”，把过度自信的想象关在门外。它的“脑回路”并不止检索。大型验证系统像资深带教，按正确性、完备性、安全性逐轮挑错；多阶段强化学习与“AI患者模拟器”让模型习得临床的慢思考与鉴别诊断路径；数据配比把医学、通识与数学推理揉在一起，避免“考试机器”的单薄。与此同时，它拥有超长上下文与并行推理能力，在标准化、证据驱动的题型里天然占优。这也解释了“为何它在分数上碾压，但并不取代医生”。AI擅长规模化检索、一致执行与不知疲倦；医生擅长价值权衡、复杂情景判断与患者沟通。一个典型落地姿态就是“百小应”：在真实病例里帮助选择生物制剂、串联PACAP偏头痛的机制到III期试验，或为科研者把热点证据按主题聚类，让人类把时间用在思考与决策上。和OpenEvidence的“强检索+引用器”相比，M2 Plus把检索、推理、评审做成闭环；与注重长链推理的通用模型相比，它通过循证增强把“会想象”改造成“会引用”。与MedGemma、MAI-DxO等国际路线相映成趣，它在证据等级与中文临床规范上更“接地气”，这也是它在多国考试中稳定发力的底色。当AI的大脑从“无所不知”转向“言之有据”，分数只是路标，可信与可解释才是终点。也许未来最强的医生，是善用AI的医生；而最靠谱的AI，离不开人类的价值观与临床经验作为“上限”。真正的胜利，不是人或机赢，而是患者更早地得到正确答案。

新知 - 大圆镜｜AI医疗的“希波克拉底誓言”：当大模型学会“循证”，医学决策告别“猜想时代”

对抗知识焦虑，从看懂这条开始

App 下载

一名医生的大脑，就像一座浩瀚的图书馆，藏满了教科书、病例、期刊论文和数十年积累的临床经验。然而，在信息爆炸的今天，这座图书馆的扩建速度远超任何人的阅读极限。AI大模型曾被寄予厚望，成为那位能秒速读完所有藏书的“超级图书管理员”。但一个致命问题很快浮现：这位管理员有时会自信地“杜撰”书中不存在的内容。在医学这个不容有失的领域，这种“幻觉”无异于一场灾难。当一个AI“一本正经地胡说八道”，它给出的究竟是良方还是毒药？这个问题，曾是悬在AI医疗头顶的达摩克利斯之剑。然而，改变正在发生。一场深刻的范式革命，正从根源上重塑AI的思维方式，让它从一个“博学但不可靠的天才”，进化为一位“严谨且有据可查的学者”。

风暴眼：当AI“幻觉”遭遇循证医学

就在不久前，百川智能发布了业内首个“循证增强”的医疗大模型——Baichuan-M2 Plus。这则新闻之所以激起千层浪，并非因为它又在哪项考试中刷新了分数，而是因为它直面了医疗AI最核心的信任危机——幻觉。评测数据显示，其幻觉率比业界领先的DeepSeek-R1低了整整3倍，可信度足以比肩资深临床专家。这背后，是一次理念的胜利：让AI学会现代医学的基石——循证医学（Evidence-Based Medicine, EBM）。循证医学，这个诞生于20世纪90年代的概念，强调任何医疗决策都应基于当前可获得的、最好的科学研究证据，而非仅仅依赖个人经验。它为医学构建了一套严谨的证据金字塔，从顶层的系统评价、Meta分析，到底层的病例报告，层级分明。这恰恰是破解AI幻觉的钥匙。通用大模型之所以产生幻觉，根源在于其训练数据是混杂的互联网“大染缸”，无法分辨信息的权威性和可靠性。它们追求的是语言的流畅与概率上的“合理”，而非事实的准确。当AI被要求扮演医生时，这种机制的缺陷便暴露无遗。

重建信任：为AI打造一座“证据圣殿”

Baichuan-M2 Plus的破局之道，是釜底抽薪——它不再让AI在信息的汪洋中裸泳，而是为其建造了一座名为“六源循证范式”的知识圣殿。这座圣殿的第一道门槛，就是“净化水源”。它主动屏蔽了互联网上的非专业信息，只从六类权威源头汲取养分：1. 原始研究层：囊括了超过4000万篇医学期刊论文，比全球最大的生物医学文献数据库PubMed还多，这是证据链条的起点。2. 证据综述层：整合了金字塔顶端的系统评价和Meta分析，提供最高等级的结论。3. 指南规范层：收录了全球权威机构发布的临床指南与专家共识，确保决策符合行业规范。4. 实践知识层：包含一线专家的病例、经验和诊疗技巧，让知识贴近临床。5. 公共健康教育层：汇集权威科普，服务大众。6. 监管与真实世界层：涵盖药监公告、临床试验数据，反映最新的监管动态与人群研究结果。这六大源头，层层递进，为AI构建了一个从“事实是否存在”到“医生应如何决策”，再到“患者应如何理解”的完整认知阶梯。知识来源纯净了，如何确保AI能精准地找到并使用这些知识？答案是教会它像医生一样思考。M2 Plus被植入了循证医学常用的PICO检索框架——针对特定“人群”（Patient），采用何种“干预措施”（Intervention），与“对照组”（Comparison）相比，能产生怎样的“结局”（Outcome）。当医生抛出一个复杂问题，AI不再是简单地抓取关键词，而是自动将其拆解成多个严谨的PICO查询，进行“地毯式”证据搜索，再通过内置的“审稿人”模型，评估证据等级，将随机对照试验（RCT）、Meta分析这类“铁证”优先呈现。

从“自由发挥”到“句句有据”

最关键的一步，是为AI的生成逻辑“上一道锁”。百川智能为此引入了“循证增强训练”机制，彻底改变了AI的回答习惯。在训练中，任何“引用”权威来源的行为都会获得高分奖励，而任何脱离证据的“臆测”都会受到惩罚。同时，一个内置的“证据评估器”让模型学会在推理时，自动评估并优先采纳高可信度的信息。最终，M2 Plus的回答风格发生了根本性改变：它输出的每一个关键结论，都会像严谨的学术论文一样，自动附上参考文献和指南出处。这种“句句有据、可回溯”的特性，赋予了AI前所未有的可解释性与可信赖度。在广州医科大学附属第一医院，一位呼吸科医生面对一位病情复杂的哮喘患者，在多种生物靶向药物间难以抉择。过去，这需要耗费大量时间查阅文献。而现在，M2 Plus在接收问题后，不仅迅速给出了首选和次选推荐，还用清晰的表格列出每种药物的机制与适应症，并在末尾附上所有引用链接。在北京天坛医院，熊医生在研究偏头痛的最新进展时，也感受到了这种变革。面对浩如烟海的文献，M2 Plus在不到一分钟内就梳理出了全球PACAP偏头痛研究的核心脉络，从作用机制到III期临床试验，自动串联起证据链。这让医生得以从繁琐的文献检索中解放，将精力聚焦于真正的临床思考与科研创新。

开启智能医疗新纪元

这场由“循证增强”驱动的革命，意义远不止于一个更聪明的AI助手。它标志着医疗大模型正从追求“答得快、无所不知”的1.0时代，迈向追求“答得对、有据可查”的2.0时代。当AI在美国执业医师资格考试（USMLE）中拿下与GPT-5持平的97分，在中国执业医师资格考试（NMLE）中取得568分的“碾压级”成绩时，我们看到的不仅是其强大的知识运用能力，更是其背后严谨、可靠的思维范式。如今，搭载了M2 Plus的“百小应”APP和开放的API接口，正将这种能力输送给每一位医生、开发者甚至患者。医生拥有了不知疲倦的“超级外挂”，可以在短时间内获得全球顶尖专家的智慧结晶；患者和家属也能便捷地获取权威、易懂的医学知识，消弭信息鸿沟。这不仅仅是技术的迭代，更是一场关于信任的重建。当AI学会了谦逊，懂得了引用，它就不再是一个冰冷的计算机器，而是真正有潜力成为人类医生并肩作战的可靠伙伴。医学决策从“经验主义”走向“证据驱动”的漫长道路，在AI的加持下，正迎来一个全新的、更加智能和可信的新纪元。