对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
碱基对周期|DNA三维结构|局部窗口大小|Gengram模型|大语言模型|基因组学|生命科学|人工智能
一个令人震惊的发现出现在Gengram模型的测试报告中。当研发团队测试一个名为“局部窗口大小”的参数时,发现在窗口宽度被设定为21个碱基对(bp)时,模型的性能达到了惊人的峰值。这个数字并非巧合,它精确地指向了生命密码最底层的物理规律:DNA双螺旋结构每10.5个碱基对旋转一周,21个碱基恰好是两个完整的螺旋周期。这意味着,相隔21个碱基的DNA位点,在三维空间中恰好位于螺旋的同一侧,拥有相似的生化环境。

换言之,Gengram在没有学习任何结构生物学知识的前提下,仅通过分析一维的序列数据,竟“领悟”到了DNA的空间相位规律。这一刻,AI不再仅仅是模式识别的工具,它开始展现出对物理世界本质的深刻洞察。这背后,是一场关于科学AI建模范式的静默革命。
这场革命的导火索,源于DeepSeek公司在2026年1月发布的一项名为Engram(条件记忆)的技术。其核心思想是,与其让大模型耗费巨量算力去“死记硬背”常识,不如直接给它一个“外挂记忆库”,需要时直接查表。这个“查—算分离”的理念,如同一颗石子投入平静的湖面。
仅仅16天后,来自之江实验室与杭州华大生命科学研究院的联合团队(Genos Team)便将这一思想成功移植到了基因组学领域,推出了**Gengram(Genomic Engram)**模块。这相当于为解读基因天书的AI,配备了一本专属的《基因组学实用短语手册》。
长期以来,主流的基因组基础模型(如Deepmind的AlphaGenome)都采用一种“单碱基分词”策略,将长达30亿字符的人类基因组序列拆解成A、T、C、G四个字母逐一分析。这就像让一个学者通过分析“魑魅魍魉”四个字的笔画结构来理解这个成语的含义,不仅效率低下,而且在浩瀚的序列中极易“只见树木,不见森林”。
Gengram彻底改变了这一模式,其核心在于两大创新机制的协同:

Gengram本身只是一个约2000万参数的轻量化插件,对于百亿级的基础模型而言微不足道,但它带来的性能提升却是跨越式的。
在多项任务评测中,搭载Gengram的模型性能全面超越未应用版本。其中,剪接位点预测准确率(AUC)提升了16.1%,而表观遗传预测任务更是惊人地提升了22.6%。这种提升赋予了模型惊人的数据杠杆效应,仅需极小规模的训练数据,就能媲美甚至超越那些训练数据量大其数十倍的顶尖模型。
更重要的是,Gengram的成功为构建新一代“懂科学”的AI探索了全新的路径:
从“暴力记忆”到“结构化知识外挂”:这标志着AI能力扩展范式的转变。未来的科学基础模型,可能不再是单一的庞然大物,而是“通用模型核心+多个领域专用知识插件”的协同形态。AI将从繁琐的模式记忆中解放,专注于更高阶的推理与创新。
“归纳偏置”的硬编码:将DNA双螺旋周期性这样的物理规律,显式地转化为模型内部的架构设计,这是一种将领域先验知识“硬编码”进AI的全新思路,让模型天生就具备了符合科学规律的“直觉”。
内生的可解释性:通过显式的哈希查询和门控机制,AI的“思维过程”变得部分透明。研究人员可以清晰地看到模型在哪些关键功能区域激活了记忆,实现了从“黑盒计算”向“具备生物学认知足迹”的演进。
Gengram的诞生并非偶然,其背后是之江实验室与华大生命科学研究院两大顶尖机构的深度融合。这支平均年龄不到30岁的“大模型种子班”团队,汇集了最顶尖的AI计算专家与生命科学专家,构建了纯粹的计算机或生物学团队难以企及的交叉创新壁垒。
他们的实验大多基于自研的百亿级人类基因组基础模型Genos。在Gengram发布之前,Genos的多数指标就已超越当时的业界顶流模型,为这次的范式突破奠定了坚实的基础。
Gengram的意义远不止于基因组学。它像一个精巧的概念验证,证明了通过为AI模型注入结构化的、可查询的领域知识,可以让它们从单纯的统计模拟器,进化为真正具备科学洞察力的智能伙伴。这不仅是AI for Science的一次重大技术突破,更是一个崭新的起点。未来,当AI能够以这种方式“学习”物理、化学、材料学等各个领域的结构化知识时,一场由AI驱动的、更深刻、更高效的科学发现新浪潮,或将就此开启。