AI读完所有论文能发明新药吗？

不能。哪怕把人类发表过的论文都“读”了，AI也难以直接发明新药。论文多为相关性与事后总结，缺少大规模负结果和原始测量；生物体系高度非线性、个体差异显著。药物从靶点到上市通常需10–15年、成本数十亿美元，进入临床后的失败率仍超85%。这些关口必须靠可重复的湿实验与临床验证，速度再快的文献理解也替代不了真实世界的因果检验。但“吃透文献”的AI能把前端效率拉满：自动抽取结构式、反应条件与效应数据，打通专利与期刊成知识图谱，结合生成模型与物理计算提出可合成候选，并用主动学习指导实验。已有项目把“靶点到候选”压缩到约18个月、合成百来个分子即获PCC，亿级虚拟筛选也已落地——只是每一步都离不开湿实验闭环。要逼近“AI发明新药”，还需端到端体系：用类似MolSeek‑OCR的技术把PDF中的分子与图表无损结构化；与多组学和真实世界数据对齐；用因果推断与多目标优化同时约束活性、ADMET、可合成性与专利空间；再由自驱动实验室快速验证迭代。可预期短期AI是超强共创者，中期或主导早期发现；要单独把药带到上市，仍有数道科学与监管门槛。

AI犯的化学错误更像人还是机器？

更像机器。你会看到它把“语法对齐”当胜利：SMILES流畅、标点完备，但结构上翻车——环闭合号不成对、同一环号重复使用、价态超限、芳香性大小写混搭、@/@@随手一翻就把对映体反了；有时还生成化学上等价但与标准答案不同的SMILES，图级意思接近，序列却不对，这种“表层正确、语义走样”是符号驱动模型的典型痕迹。它也有一撮“像人”的影子：新手常犯的立体构型、取代位次、编号失误，模型同样高发。但资深化学家会用直觉做全局体检（电荷守恒、合理价态、共轭与芳香性一致性），很少犯环号未配对这类硬性语法错；模型缺的正是这道“常识闸门”。要纠偏，得在推理链上加图级归纳偏置与规范化：先生成分子图再编码、强制canonical SMILES、用RDKit校验回写，并以图一致性而非字符串一致性作为优化目标。

AI能看懂达芬奇的手稿吗？

能，但前提是“喂熟”。用当代手写体识别与视觉语言模型做定制微调（先LoRA再选择性全参），配合镜像翻转与历史意大利语语言模型，AI已可稳定转录达芬奇大部分文字；在类似16世纪草书体的任务上，只要有几百页人工标注，字符错误率通常能压到个位数，常见速记与缩写也能自动还原。难点不在“读字”，而在他把文字、箭头、尺寸线和素描缠在一起，且跨页增删。要真正“看懂”，AI得同时完成转录、释义与图文对齐：识别图中标签与正文实体的对应关系，复原步骤与力学意图，并把非常规记号翻译为标准术语。这一步目前仍是瓶颈——零样本几乎不行，混合“真迹页+合成镜像草书”的训练能显著提升，但对罕见术语、跨页改写与非标符号仍需专家校对与人机共标循环。因此，答案是“可读其文、可解其意于多数场景”，但要替代学者级理解，还差一段路。

新知 - 大圆镜｜通用OCR大模型转行化学，精度仍逊于专用工具

大圆镜

内容由AI生成，思考得你完成

App Store 下载 Android 下载

两阶段微调：给大模型上化学补习班

直接让通用大模型硬刚化学任务，结果是灾难性的——原始模型在所有测试数据集上的准确率几乎为0。研究团队换了个思路：用「两阶段渐进微调」给大模型办个「化学补习班」。

第一阶段是「预科班」：用LoRA（低秩适应）技术，只在模型的关键层插入少量可训练的「适配器」，就像给模型戴一副专门看分子图的眼镜。这一阶段不改动模型的核心参数，只用19.2万对分子图-SMILES数据训练，让模型在保留通用文档识别能力的同时，初步建立「图形→化学语言」的映射。训练稳定，计算量只有全参数微调的几十分之一，还避免了「学了化学忘了文档」的灾难性遗忘。

第二阶段是「专业课」：冻结模型底层负责识别线条、形状的视觉分词器，只微调高层的语义理解模块和语言解码器，还采用了「分叉学习率」——视觉模块用小学习率慢慢调，语言模块用大学习率强化SMILES生成能力。这一阶段把训练数据扩充到80万对，让模型在真实专利图像、扫描噪声的「实战」中打磨技能。

经过两阶段训练，模型的准确率从0提升到了50%-70%，部分场景能追上传统的图像到序列模型DECIMER。

数据混合：让模型既懂理论又会实战

光有补习班还不够，得有好教材。研究团队用「合成数据+真实数据」的混合食谱喂模型：合成数据像教科书，用PubChem数据库的分子结构生成两种风格的图像——一种是标准的ChemDraw风格，一种是模仿真实手绘的MolScribe风格，还添加了各种扰动，让模型见识分子图的各种画法；真实数据像高考真题，直接从USPTO专利里抽，有扫描不清的噪点、粗细不均的线条、专利特有的标注，全是现实中的「坑」。

混合训练的效果很明显：只练合成数据的模型，在真实专利图像上的准确率只有46%-65%；只练真实数据的模型，因为数据量少容易过拟合，准确率也只有65%左右；而9:1的合成与真实数据混合训练，让模型的泛化能力大幅提升，在扰动数据集上的表现也更稳定。

但测试结果也暴露了短板：这个名叫MolSeek-OCR的模型，虽然能应付大部分常规分子图，但在识别立体化学构型、配位键这些复杂结构时，还是不如专门的「图像到图」模型MolScribe——后者能直接预测原子和化学键的空间关系，准确率能达到76%-93%，比MolSeek-OCR高出一大截。

后训练困境：保真度与正确性的两难

研究团队还尝试用强化学习（GSPO）和数据清洗微调（ReFT）给模型「拔高」，结果却事与愿违：这些方法虽然提升了生成分子的化学有效性，比如让模型生成的SMILES更符合化学规则，但却牺牲了序列级的保真度——同一个分子可以有多种合法的SMILES表示，而评测只认标准答案那一种字符串。模型学会了「意思对就行」，但评测要求「一个字符都不能差」，最终导致精确匹配准确率不升反降。

这戳中了通用大模型做专业任务的一个深层矛盾：如何平衡语义正确和序列精确？对于化学数据库录入、专利审查这些需要绝对精准的场景，这个问题不解决，通用大模型就没法替代专用工具。

更现实的挑战是计算成本：即使用了LoRA，微调这样的大模型也需要至少8GB显存的GPU，推理速度也不如轻量的专用模型，很难部署在实时性要求高的场景里。

这项研究没有造出能颠覆化学界的神器，却做了一件更有价值的事：它用扎实的工程实践，证明了通用大模型可以通过「渐进微调+混合数据」的路径，跨界适应专业领域的高精度任务。它像一面镜子，照出了通用大模型的潜力——能快速学会新领域的基础知识，也照出了局限：在需要深度结构理解的任务上，还是不如量身定做的专用模型。

更值得关注的是，它给所有想把大模型落地到垂直领域的人提了个醒：大模型不是万能的「瑞士军刀」，在专业场景里，它更像一个需要针对性调校的「通用底盘」，得配上专门的「工具头」才能发挥最大作用。

跨界易，专精难，通用大模型需适配专业逻辑。

两阶段微调：给大模型上化学补习班

数据混合：让模型既懂理论又会实战

后训练困境：保真度与正确性的两难

评论