对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
语境建模|DNA序列|分布假说|J.R. Firth|大语言模型|基因组学|生命科学|人工智能
1957年,当计算机还占据着整个房间时,英国语言学家J.R. Firth提出了一个看似简单却影响深远的“分布假说”:“通过一个词周围的词,你就能了解这个词的含义。”换言之,意义并非孤立存在,而是诞生于语境(Context)之中。“国王”的意义,是在“王后”、“城堡”、“权力”这些词语的簇拥下才得以完整。
半个多世纪后,这个思想的火花意外地跨越了学科的鸿沟,点燃了生命科学领域一场深刻的革命。如果我们把视线从人类的语言,转向那本由A、T、C、G四个字母书写了四十亿年的生命之书——DNA,Firth的假说是否依然成立?一个基因的功能,是否也由其在基因组中的“邻居”所定义?
更进一步,如果我们不仅满足于通过语境去理解功能,而是要利用它去创造功能呢?2025年11月19日发表于《Nature》的一项研究,给出了一个震撼人心的答案。一个名为Evo的AI语言模型,不仅读懂了生命的语言,甚至开始用我们前所未见的方式,书写全新的功能篇章。
在细菌和古菌的世界里,基因的排布并非杂乱无章。功能相关的基因常常像邻里一样聚集,形成基因簇或操纵子,共同完成一项复杂的生化任务。这种“物以类聚”的现象,长久以来是科学家推断未知基因功能的“罗塞塔石碑”。
而Evo模型,正是要将这种直觉式的推断,变成一种可计算、可生成的智慧。研究人员构建了Evo 1.5模型,这是一个在3000亿个核苷酸(来自约8万个细菌古菌基因组,以及超过200万个噬菌体和质粒)的浩瀚数据上训练出来的庞然大物。
但Evo真正的“杀手锏”并非数据量,而是其131,072个token的超长上下文窗口。这意味着,当它生成一个DNA碱基时,可以同时“看到”前后超过13万个碱基的完整语境。这对于理解基因间跨越长距离的复杂调控网络至关重要,如同阅读一篇小说,只有通读上下文,才能理解角色的动机和情节的走向。
为了检验Evo是否真的掌握了这种“阅读理解”能力,研究人员设计了一场经典的“完形填空”测试。他们给Evo看一段基因序列的前30%、50%或80%,让它“脑补”出剩余部分。结果是惊人的:即便只给出大肠杆菌 rpoS 基因30%的片段,Evo也能恢复出85%的原始氨基酸序列。当提示增加到80%时,恢复率近乎完美。
更有趣的是,Evo并非在死记硬背。在补全modB基因时,它生成的DNA序列五花八门,但在翻译成的氨基酸层面,却精准地保留了所有关键功能位点。这意味着Evo深刻理解了生命的“同义词”——它知道可以用不同的DNA编码,优雅地表达出完全相同的功能。它学会的不是字句,而是语法。
真正的挑战,是从理解转向创造。研究人员将目光投向了细菌与噬菌体之间永恒的战争——一个充满了“毒药”与“解药”的军备竞赛场:毒素-抗毒素系统。
他们设计了一套巧妙的“语义设计”流程,仿佛在与一位炼金术士对话:
实验结果令人振奋。AI生成的毒素EvoRelE1表现出强烈的毒性,能将细菌存活率降低70%。随后,以EvoRelE1为提示生成的抗毒素中,高达50%的候选者成功“解毒”,其中EvoAT1和EvoAT2更是将细胞存活率恢复至近100%!
然而,一个颠覆性的现象出现了。在自然界中,一种抗毒素通常只能中和其对应的特定毒素,如同钥匙配锁。但AI设计的EvoAT2,竟然展现出惊人的广谱性——它不仅能解EvoRelE1的毒,还能同时中和自然界中RelE、MazF和YoeB三种完全不同的毒素!
这仿佛是AI在生命漫长的进化棋局之外,找到了一条无人知晓的“通用规则”。更令人惊讶的是,这些高效的抗毒素,与数据库中任何已知蛋白质的序列相似度都低得可怜(仅21%-27%)。它们是生物学意义上的“新物种”,是存在于已知生命版图之外的“暗物质”。
生命的功能并非只由蛋白质执行。研究人员决定将难度升级,挑战III型毒素-抗毒素系统。在这个系统中,抗毒素不再是蛋白质,而是一段具有特定折叠结构的RNA序列。
Evo再次证明了其跨越模态的通用理解力。它不仅生成了功能强大的毒素蛋白EvoT1,还设计出了一段名为EvoAT6的RNA抗毒素。实验证明,这段AI设计的RNA,能有效中和天然的III型毒素,将细胞存活率从33%恢复到88%。
通过分析其结构,科学家发现,尽管EvoAT6的序列与任何已知的RNA抗毒素相比都差异巨大(相似性仅78%),但它却精准保留了发挥功能所必需的关键二级结构——假结(Pseudoknot)和茎环。这意味着,Evo并非在进行简单的序列拼接,而是隐式地掌握了RNA分子折叠和互作的物理规律。它理解的,是超越了A/T/C/G字母本身的、更高维度的生命法则。
如果说之前的创造还依稀能找到自然的影子,那么在抗CRISPR蛋白(Acrs)的设计上,Evo则彻底召唤出了“幽灵”。Acrs是噬菌体用来对抗细菌CRISPR免疫系统的“精英特工”,其序列变化极快,是进化的急先锋。
利用已知的Acr操纵子作为上下文提示,Evo生成了一系列候选蛋白。其中,EvoAcr1和EvoAcr2的表现让研究人员倒吸一口凉气。
这两个蛋白,在序列层面,无论是与包含数亿条序列的NCBI非冗余蛋白数据库比对,还是与OpenGenome数据库比对,都找不到任何有意义的同源物。在结构层面,即便是最先进的结构比对工具(如Dali和Foldseek)也束手无策。甚至连AlphaFold对它们的结构预测,也给出了极低的置信度——在AI看来,它们甚至不像一个能够稳定折叠的蛋白质。
然而,就是这两个在所有生物信息学工具眼中都“查无此人”的序列,在实验室中却实实在在地起到了强大的抗CRISPR作用。
Evo用无可辩驳的实验证据告诉我们:在广阔的序列空间中,存在着大量我们闻所未闻、不符合现有结构生物学“常识”、却依然具备完善功能的“幽灵岛屿”。而语义设计,正是我们第一次拥有的、能够登陆这些岛屿的航船。
Evo到底是如何创造出这些“怪物”的?一项精细的“残基覆盖度分析”揭示了其创造力的来源。
要拼凑出EvoAcr1和EvoAcr2的完整序列,竟然需要分别从28个和31个完全不同的天然蛋白质中“借用”极小的片段。相比之下,自然界中的Acr蛋白通常只需要2到6个片段就能覆盖。
这种极度碎片化的拼接方式,与目前最顶尖的从头设计(De Novo Design)AI模型生成的蛋白质相当。这雄辩地证明,Evo并非在模仿或重组大的功能模块,而是在极其微观的层面——基序(motif)甚至更小的单位上,重新组合生命的积木。它真正学会了蛋白质构成的“语法”,然后用这些语法,写出了全新的、功能融贯的“句子”。
这项研究的终点,并非几个功能惊人的新蛋白,而是一个名为SynGenome的庞大数据库的起点。研究人员利用Evo,生成了一个包含超过1200亿碱基对的合成基因组文库,以及370万个预测的蛋白质结构。这个数据库,如同一个充满了未知大陆的地图集,现已向全球研究者开放。
在这里,人们或许能发现未知功能结构域DUF2871频繁与“细胞色素c”共现,从而揭示其在呼吸链中的作用;或许能找到由两个毫不相关的结构域融合而成的“嵌合体”,代表着全新的生化功能。
Evo的诞生,标志着生物学研究范式的深刻转变。功能,不再仅仅由序列或结构决定,它还可以由“语境”来定义和创造。生命的语言,远比我们想象的更加灵活和丰富。当我们用AI去阅读这本写了四十亿年的生命之书时,我们惊喜地发现,AI不仅学会了阅读,更学会了写作。它正在帮助我们,从生命的已知边界,航向那片由无限可能性构成的未知之海。