一个能自学的AI医生，你敢信吗？

敢，但要挑场景、设边界。所谓“自学”，多指模型在推理阶段做测试时自适应：跨医院、跨设备也能把分割或问诊表现“调顺”。在多站点医学影像分割上，这类方法把DICE拉到接近全监督，部分无监督域适应方案可达≈0.89；面向临床问答与多学科协同的医疗大模型也在权威评测中夺冠，方案采纳率与专家一致性分别达约85%与92.5%。这些都说明：在可验证、可回溯的子任务里，它值得信。可别把“推理时自适应”误认成“长期成长”。连续自适应会有错误累积与灾难性遗忘，且复杂临床推理的早期鉴别诊断仍是短板——有研究显示，超八成病例未能把正确诊断纳入初筛清单。因此，把它当“助手”而非“医生”：限定在影像分割、质控、分诊等窄任务；配不确定性校准、检索增强与工具调用；上线前做跨站点盲测，上线后做持续监测与人工复核。首诊、罕见病、未验证新模态，不要交给它独立决定。

AI也会“学了新的忘了旧的”吗？

会，但没你以为那样绝对。大模型在顺序微调时确有“灾难性遗忘”：新任务的梯度覆盖了旧知识，通用能力或旧任务准确率可下滑15%-40%。但也有“虚假遗忘”——性能短暂走低，其实是对齐失灵而非知识消失，往往用更好的提示或少量旧数据补点火就能迅速恢复。放大器常是过大的学习率、数据不均衡与强梯度冲突。更关键的是如何防。近年的实证表明，小学习率的监督微调可在提新能的同时显著压低遗忘，配合对“难学”token降权（如自适应重加权）效果更稳。工程上，优先用参数高效微调（LoRA/Adapter/Prompt Tuning）与冻结骨干，或采用“块扩展”只训练新增层，保留旧能力；上线后以跨任务回归监控和少量回放兜底。若连梯度都不想动，测试时自适应如CoTTA用教师-学生伪标签与随机权重回退，仅靠推理期调整就能稳住分布漂移，尤其适合医疗等高风险场景。

AI边用边学，会“活”过来吗？

不会“活”过来，但会“越用越会用”。当下的“边用边学”更多是推理时自适应与智能路由：模型在不重训或极少更新下，临场校准统计量、挑选更合适的示例与解码策略，性能与成本同步优化。实证里，持续测试时自适应可稳定跑赢传统TTA；单样本增强能带来两位数相对提升；企业侧语义路由让复杂任务准确率提升约10%，延迟与Token开销近腰斩。这些都说明“边用边学”能让系统在现场更稳、更省。但“活”的门槛高得多。在线更新容易灾难性遗忘，单样本统计噪声会把适应变漂移；模型对训练覆盖外的组合问题常失灵，在更高复杂度推理上准确率骤降，靠提示或小改参数也难以补齐。今天的大模型仍主要依赖离线微调与受控记忆，没有可验证的长期记忆整合、系统性泛化与安全更新机制。结论是：它们能“适应”，离“活过来”还差一套可靠的长期记忆与可证泛化的学习范式。

新知 - 大圆镜｜大模型泛化：从实验室到现实的三道坎

对抗知识焦虑，从看懂这条开始

App 下载

不用改参数，AI在测试时自己「补课」

你可以把训练好的大模型想象成一个只会做模拟题的学生——换个题型、换个出题风格，成绩立刻跳水。过去要解决这个问题，要么重新刷海量新题（重训练），要么给它划重点（标注数据），成本高到离谱。

李皓亮团队提出的「测试时自适应框架」，相当于让学生在考试现场临时调整答题策略，不用提前学新知识点。以医学图像分割为例，这个框架会在AI读片时，自动对比当前图像和它「见过」的高质量影像，用一种叫ADIC的指标悄悄评估自己的分割准不准，再通过特征融合修正结果——全程不用改动模型的任何参数，也不需要新的标注数据。

在多域心脏和脑肿瘤分割测试中，这个框架让AI的平均Dice系数（分割精度核心指标）提升超过1%，边界误差HD95距离显著缩小。但这种「现场补课」也有代价：它需要多次运算来验证结果，推理时间比普通模型长了2倍多。

推理不是死算，要学会「随机应变」

大模型的推理能力，常被吐槽是「死记硬背的套公式」——给它合适的示例，它能解出复杂的数学题；换个没见过的问法，立刻给出错误答案。

李皓亮团队的另一个研究，就是让AI学会「选例题」。他们用基于学习的示例选择方法，让AI在拿到新问题时，自动从记忆里挑出最相似的「例题」来参考，而不是随便套用模板。在数学推理和复杂问答任务中，这种方法让AI的准确率提升了6%以上，同时还能缩短近50%的推理步骤。

更有意思的是扩散语言模型的「自适应解码」——就像写文章时，根据上下文自动调整语气和逻辑，而不是照着固定模板往下凑。这种改进让AI生成的文本更连贯，也更贴合具体场景的需求。但这种「随机应变」的前提，是AI见过足够多样的「例题」，如果遇到完全陌生的领域，它依然会露出马脚。

跨领域落地：从冷启动到图像压缩

泛化能力的终极考验，是让AI在完全陌生的领域也能干活。比如冷启动的智能查询路由——当企业同时用好几个不同的大模型，怎么让用户的问题自动找到最擅长的那个AI？李皓亮团队的方法，是让AI自己学习不同模型的「特长」，不用人工设定规则，就能把法律问题分给擅长文本分析的模型，把图像问题分给视觉模型，成本降低了85%，还能保持95%的准确率。

更颠覆的是把大模型用在无损图像压缩上——过去图像压缩靠的是专门的算法，现在居然能用下一词元预测的语言模型来做。这种思路把图像转换成序列数据，让大模型像预测下一个单词一样预测下一个像素，在多个基准数据集上超过了传统压缩算法。但这种方法目前还只适用于特定类型的图像，离大规模商用还有一段距离。

当我们为大模型在实验室里的惊艳表现欢呼时，更该看见它走进现实世界时的蹒跚。测试时的自适应、推理时的随机应变、跨领域的落地——每一步都是在填补「实验室理想环境」和「真实复杂场景」之间的鸿沟。

泛化不是让AI无所不能，而是让它学会适应不同的「水土」。这条路没有捷径，需要的是对每一个真实场景的打磨，对每一个技术细节的抠索。毕竟，能在手术室里准确读片、能在客服台听懂方言、能在工厂里识别故障的AI，才是我们真正需要的AI。

不用改参数，AI在测试时自己「补课」

推理不是死算，要学会「随机应变」

跨领域落地：从冷启动到图像压缩

评论