AI“编程”蛋白质，新药研发会论天算吗？

想象把蛋白质当作代码写进自然之中：敲下几行“指令”，分子功能跃升，药物候选跃然而出。过去这像科幻，如今在实验台与算力簇拥下正变得寻常——新药研发真的会走到“论天算”吗？先看速度从哪里被“偷”回来了。蛋白质工程的搜索空间庞大得像星海：一个100位氨基酸的蛋白，可能变体多到超过可观测宇宙的原子数。传统做法一次摸索几百个突变，像黑夜里点蜡烛。AI把手电换成了车灯，但过去很多方法仍需数万次测量、5–10轮迭代，耗时数月。关键突破出现在“如何用最少的实验，学到最有用的规律”。 MULTI-evolve的聪明之处，就在“少而精”的闭环。它先用多种蛋白质语言模型与结构信息交叉投票，找出约15–20个真正能增强功能的单突变；再把这些“优等生”两两成对系统测试，积累100–200条极有信息量的数据，让神经网络直接学习突变之间的上位互作规律。仅用单突变和双突变训练，模型便能跨12类蛋白家族外推到含5–7个突变的复杂组合，并在超过一半场景里挑中表现最佳的多突变体。原本需要5–10轮的实验周期，被压缩到“单轮建库+一次建模+一次验证”的数周节奏。这不是纸上谈兵。框架在APEX、dCasRx和抗CD122抗体上跑通：对dCasRx，研究者从超过1.1万种深度突变扫描中只提纯“向好”的突变，再测它们的成对组合；对APEX，模型甚至捕捉到常被标准语言模型“误伤”的脯氨酸替换，发掘出让活性提升53倍的A134P。更妙的是，多点诱变的工程瓶颈也被“MULTI-assembly”疏通：针对跨千碱基、含多至九处突变的构建，组装效率达40–70%，构建周期从数周缩短到数天。这意味着，一个项目往往只需测试几百个战略性变体训练模型，最后实测个位数到十来个候选，就能拿到超活性组合。如果把研发想成流水线，前端的“想—算—造—测”循环正逼近“按天计”。算力端，基于对比共嵌入的模型已能在一天内筛过亿级小分子；抗体结构与结合位点预测正以接近实验精度逼近现实使用；药物代谢相关的CYP底物预测达到0.89–0.98的AUROC，早筛去雷更稳。自动化端，集成液体处理、机械臂与在线分析的智能实验室，把“设计—合成—测定—回传”的闭环做成了24小时不停机的工厂。临床与开发侧，自动化撰写降低报表时长四成，智能入组可望把患者招募效率提升一半。这些“分段提速”叠加，让曾经4–6年的端到端探索，在个别项目中被压到18个月量级，且成本腰斩九成。当然，“论天算”也有边界。生物体是复杂系统，安全性、免疫原性、代谢与制造可行性，都需时间与多模态证据。预训练模型可能存在数据泄漏与偏置，蛋白互作数据库更偏爱“稳定、常见”的关系，跨物种与高突变负荷场景的泛化仍需严谨基准与独立验证。真正把药物带到病床前，临床试验、工艺放大与监管审评仍不可压缩到“天”。但把每一轮分子设计与功能验证缩到“天—周级”，让闭环以“日更”的频率滚动，这正是质变的临界点。那么答案是什么？在早期发现与工程优化阶段，越来越多的任务会“论天算”；在走向患者的漫长旅程中，AI与自动化会把月缩成周、把年压成月，却不会也不该跳过求证的时间。可贵之处在于，AI把“偶得灵感”的艺术，变成“可编程进化”的工程，把科学家的时间从无效试错中解放出来，投注到更有想象力的假设与更有温度的问题。当我们能在一天内完成曾经一年的探索，新的难题也会出现：速度得到之后，我们将以怎样的价值观来定义“好药”？当分子世界被我们像软件那样迭代，技术的边界之外，是选择的智慧。也许真正的加速，不只是把时间单位改成“天”，而是让每一天都更接近人类想要抵达的健康与尊严。

除了造蛋白，这套AI心法还能用在哪？

想象一位名厨，不是盲目往锅里添料，而是先用小勺把“成对味道”逐一试过，迅速摸清哪些食材彼此相生、哪些会相克，再一口气端出满汉全席。MULTI-evolve的AI心法做的就是这件事：先用多模型合议找出高潜力“食材”，用少量但高价值的“成对试吃”学习相互作用规律，训练模型外推出更复杂的“菜谱”，最后用自动化厨房在几天内把菜全做出来。除了“造蛋白”，这套心法几乎可以复制到一切存在“组合爆炸”和“协同效应”的领域。在小分子药物里，它能把“从模板到药”的漫长试错压缩成快节奏的闭环。像ConPLex那样，利用蛋白语言空间的对比学习，可以在一天里筛上亿化合物，并且对脱靶风险给出先验预警。把“成对试吃”的思想迁过去，就不是瞎改分子，而是优先做有限的取代基成对组合，训练模型学会结构–活性里那些非线性“化学默契”，再让自动合成平台把最有戏的分子快速做出来，SAR从蜗行演化为疾速跃迁。在抗体工程与互作设计中，“上位效应”更加直观。真实世界里，两个CDR位点的微调可能让亲和力飙升，也可能彼此抵消。将H3-OPT这类结构感知与语言模型结合起来，配合有限的双突变扫描，就能更稳地捕捉高阶互作信号，把亲和力成熟从多轮动物免疫与筛选，变成一轮模型驱动的精准开局。在基因编辑器、代谢通路与合成生物学中，这套方法已经显山露水。AiCE证明了在结构与进化约束下，单点与组合突变可以被高效提名；iAutoEvoLab把连续进化与机器人平台打包上阵；而将“成对组合学习”用于酶–辅因子、酶–底物的协同搭配，能在最小实验预算里摸清通路瓶颈，迅速把通量、选择性或耐受性“拧到位”。进一步叠加无细胞体系，闭环可在周级别跑完多轮，真正实现“想—做—证—再想”的高速循环。在材料科学里，这是一台为“多因子耦合”量身定制的加速器。新催化剂需要主–助催、位点掺杂与晶面工程的协同；电池电解液和固态电解质讲究多溶剂、多添加剂的配伍；光伏钙钛矿的稳定性常常是多组分共振的产物。GNoME用图神经网络和主动学习挖出数十万稳定材料，AQE能在80小时里生成并筛选3200万候选，MatterGen/MatterSim把“设—验”连成流。若再引入“战略性成对组合实验”的采样范式，模型就能更快学到掺杂与配方间的非线性耦合，把多掺、多相、多维目标的搜索，从指数深渊拉回可计算、可合成、可验证的窄轨。在工艺与生物制造中，心法同样奏效。发酵配方、喂料曲线、温pH溶氧等变量常互相牵制，单因子法低效且误导。把变量当作“配方基元”，先做少量成对试验学习相互作用，再由模型外推至多变量最优区间，叠加机器人与在线传感器，就能把放大路线从经验黑箱变成可解释的“导航图”。这正是NVIDIA等提出的“实验室在环”所抓住的本质。在计算与仿真层面，这种思维也能让昂贵的高精度计算用在刀刃上。AI 2 BMD与机器学习力场已经把量子级精度带入可用尺度；若以“成对扰动—学习相互作用”的主动学习来挑选最有信息量的量化计算点，就能以更少的算力换到更稳的泛化，把静态结构预测拓展成对动力学、结合与折叠路径的系统刻画。为什么这套心法能跨界通杀？因为它抓住了三个普适原则：用集合式模型做高召回的候选发现，用小而精的成对实验提炼“协同规则”，用自动化与闭环把学习曲线陡峭化。蛋白里的上位效应，在材料里叫多掺协同，在药化里是取代基非加和性，在工艺里是多因子交互项；名称不同，本质相同。如果你正准备把它迁移到你的问题上，一个可落地的路径是：先用多模态或多范式模型做合议打分，拉出一批“可能有戏”的基元；设计一套覆盖面好的成对组合迷你实验，确保每次测量都“教会模型点什么”；用轻量神经网络或核方法拟合并外推高阶组合；最后借助自动化装配或合成，把最有希望的候选迅速做出来验证。数字与实验握手，你就进入了加速度带。科学的难，不在于“零到一”的灵感，而在于“组合”的规律。AI让我们第一次能系统性地看见协同，进而驯服协同。当我们学会与复杂性的“合奏”而不是“对抗”，你会发现，新的药、新的材、新的工艺，往往只是同一条方法论在不同世界里的回响。下一次，当你被指数级的选择吓退，不妨先问一句：我能不能先把“成对味道”尝明白？这或许就是通往更大创造的最近路。

AI设计的完美蛋白，会不会有隐藏的缺陷？

把一条看不见的分子“项链”交给人工智能，它能在屏幕里几分钟“编织”出一条看似完美的宝链。可当你把它拿到日光下，细看每一颗“珠子”的切面角度、每段链扣的受力方向，才会发现：完美，往往先是视觉上的完美，未必是物理与生命系统里的完美。AI设计的蛋白质也是这样——耀眼，但可能藏着细微却关键的裂纹。近年的确令人振奋。蛋白质语言模型、扩散生成与逆折叠模型，把设计速度从“以年计”拉到“以周计”。更重要的，是把瓶颈重新推回了实验室。比如MULTI-evolve这类“实验室-循环”框架，不再赌海量随机序列，而是先找出约15–20个真正有益的单突变，再系统测完它们的成对组合，用100–200次高价值测量训练神经网络，直接外推到含5–7个突变的高阶组合。它在多个蛋白家族上验证有效，甚至把传统需要5–10轮迭代的工程，压缩到一轮设计、数周落地。它还能纠正模型的“偏心”，通过多模型集成和去偏打分，抓住像APEX中提升活性53倍的A134P这类传统pLM会错过的“逆向”脯氨酸替换。配套的MULTI-assembly把复杂多点诱变的组装效率做到40–70%，把“造物”从昂贵缓慢的商业合成，拉回到几天内的自建流程。但“看起来对”不等于“在生物体系里全对”。AI模型会继承训练数据的偏见与盲区：标准语言模型对某些氨基酸替换的系统性惩罚、跨物种泛化受限、与小分子结合数据的稀缺，都会让“最像真的”设计在关键处失手。结构层面也有错配：AlphaFold的pLDDT或PAE高，不代表功能可靠；在多结构域蛋白上，预测与实验能出现数埃量级的相对取向偏差，动态环区与柔性接头是常见“坑”。单点突变对稳定性或活性（ΔΔG、荧光）的影响，AlphaFold式指标相关性很弱，这提醒我们：从“能折叠”到“可用、可控、可转化”，中间隔着热稳定性、聚集倾向、构象动态、配体口袋瞬态曝光等物理与细胞层级的鸿沟。也因此，越来越多团队把分子动力学、流匹配与分布式生成模型引入设计环节，去捕捉那些只在亚稳态和过渡态才显形的关键口袋与接触。功能景观的“上位作用”更是隐藏缺陷的温床。双突变数据能教会模型一些相互作用的规则，但高阶上位效应并不总能被成对信息完全外推；在不同温度、离子强度、表达背景、分泌/降解通路、伴侣蛋白与翻译后修饰环境中，同一序列会给出不同答案。真实世界里，“更稳”不一定“更好”，过度稳定的组装还能诱发异常聚集或显性负性效应；而“更活性”也可能换来免疫原性上升或非目标结合。工程的成熟，不只是把峰顶找到，更是把山谷避开。安全层面的“隐藏缺陷”同样现实。对生物安全筛查软件的红队评估显示，原型毒性蛋白容易被拦下，但经AI重新设计的变体有一部分仍能漏网，哪怕它们最可能保留功能。混合式、按功能语义筛查的策略正在补课，DNA合成审核也在向更严谨的标准迈进。科学迈得更快，守门就必须更稳。走向更少缺陷的路径，其实已经露出轮廓。让模型“多元共识”而非“单一独断”，对氨基酸与结构偏见做系统去偏；把静态结构与动态能景耦合，提前“压力测试”结合口袋与构象跃迁；在设计阶段就引入稳健性约束与对抗性扰动，看看轻微环境波动是否会让功能“翻车”；把湿实验做成闭环，不只测活性，也同步量化热稳定、聚集、免疫学指标与非目标互作；在每一轮迭代中让进化参与决策——像MULTI-evolve那样用少量、但极具信息量的测量，让自然的选择压力当你的联合设计师。事实证明，哪怕只测试九个候选，也可能收获超活性多突变体；关键在于信息的密度，而不是样本的堆砌。所以，AI设计的“完美”蛋白，会不会有隐藏缺陷？会，而且这并不可耻。生命系统的复杂性决定了“完美”本身就是情境化的：对某个任务、某种环境、某段时间的最优组合，放到另一个场景就可能显露短板。令人兴奋的是，我们正在学会把不确定性纳入设计：用多模态的知识刻画蛋白，用实验的反馈校准模型，用安全的护栏守住边界。也许真正的完美，不是一次抵达，而是持续逼近。当人类的创造与进化的智慧在循环中握手，隐藏的缺陷就会变成显性的台阶，带我们走向下一处更高的峰顶。

AI像学外语一样，破解了生命的语言吗？

如果生命也有语法，那么氨基酸就是字母、结构是句法，上位效应是难懂的习语。过去我们靠“猜句子”式的试错来学习这门语言，如今，AI正像学外语那样，从海量语料里抽丝剥茧，开始又读又写地与生命对话。答案不是绝对的“是”或“否”，而是“正在被破解，而且已经足以改变工程实践”。蛋白质语言模型把序列当作句子，学习残基的“搭配规律”。这股能力已经落地：有方法将传统需要5–10轮、历时数月的定向进化压缩到数周。典型例子是MULTI-evolve：先用多种语言模型和结构评分联合作文，精准找出约15–20个“有益词汇”（功能增强突变），再系统测试它们的“搭配”（所有双突变），只需100–200次测量，神经网络便学到关键的上位“习语”，随后就能预测包含5–7个突变的高阶“长句”。事实胜于雄辩。团队在12个不同蛋白家族的数据集上，仅用单突和双突训练，就能准确外推复杂多突变体；即便把训练数据砍到原来的10%，趋势依旧成立。把框架应用到APEX、dCasRx和抗CD122抗体上，一轮实验各测100–200个变体，模型即可提出少量最强候选；在APEX里，还挖出了常被标准语言模型“偏见惩罚”的A134P，活性提升达53倍。更快的“写作工具”也被造出来：MULTI-assembly可在数天内合成跨千碱基、最多九处突变的复杂体，组装效率40–70%，并配有计算化寡核苷酸设计器。 AI不仅会“读”，也在“写”。AiCE把三维结构与进化约束融合进逆折叠通用模型，不用专门再训练，就能高效提出单突与组合突变：在60个深度突变扫描上，single模块达到16%准确率，加入结构限制比无限制方案提升37%，总体相较常见模型提升36–90%，计算成本低到识别SpCas9的单突与双突仅需约1.15个CPU时。在湿实验里，AiCE优化了脱氨酶、核定位序列、核酸酶与逆转录酶等8类蛋白，催生出编辑窗口缩小近一半的碱基编辑器、保真度提升1.3倍的新型CBE，以及活性提高13倍的线粒体编辑器。更具野心的系统也在前进。EVOLVEpro让两种抗体黏附力提升30倍，使微型CRISPR核酸酶编辑效率提高5倍、Bxb1整合酶效率提升4倍、向不同位点插入效率翻倍，并把T7 RNA聚合酶的复制准确性提升到百倍量级。以近90亿序列、数亿功能标签为语料的Venus系列模型，则把“AI定向进化”和“AI挖酶”推向产业：把某单域抗体的耐碱性提高4倍并完成5000升放大、每年节约千万级成本；将碱性磷酸酶活性优化到国际头部产品的3倍，已进入200升中试。当然，学会语法不等于精通语用。AI在跨物种泛化、动态构象与细胞环境“语境”、以及可解释性上仍有待突破；PPI与功能数据也存在偏倚和泄漏风险。好消息是，像MULTI-evolve这样的“实验室—循环”把计算与实验紧密耦合，配合自动化平台与更强的蛋白大模型，这些短板正被系统性补齐。因此，说AI“破解了生命的语言”并不夸张，但更准确地说：我们已掌握了足够的语法与搭配，能够写出有用、优雅、甚至惊艳的“段落”，并开始在真实世界里印刷发行。接下来值得思考的是——当我们不仅理解生命，而且能与生命共同写作时，我们希望这门语言，讲述怎样的故事？

蛋白质里的“三个和尚没水喝”困境何解？

想象把三个各有所长的“高手”请进同一间厨房：一个擅长火候、一个讲究刀工、一个主打调味。各自单飞都能出彩，一起上阵却可能手忙脚乱、互相掣肘——这就是蛋白质里“几个好突变凑在一起反而不灵”的上位性困境。序列空间如同宇宙般浩瀚，绝大多数随机改动会拖后腿；而功能增强的突变彼此不总“对眼”，活动-稳定性的此消彼长更像一根随时绷断的弦。要让这三位“和尚”同心挑水，关键不在蛮力扩库，而在学会他们如何配合。症结首先在于上位性：多点突变的效应并非简单相加。蛋白多为“边际稳定”，ΔG常小于10 kcal/mol，许多提升活性的改动会削弱折叠稳定度；当有益突变彼此冲撞，整体表现便“翻车”。经验和结构学揭示了一些规律：正向上位性更常发生于三维空间相邻的位点；疏水核心、环区脯氨酸、表面盐桥等微环境会放大或缓冲彼此影响。这些规律是破局的“乐谱”。 MULTI-evolve带来了一套行之有效的指挥法。它不追求大而全的数据洪流，而是“以质取胜”：先用多模型“合唱”的蛋白质语言模型与结构打分，点名约15–20个确有改良迹象的单突变。这样的组合票选能纠正单一模型的偏见（例如常被惩罚的脯氨酸替换），实践中甚至挖出了把APEX活性抬高到原来53倍的“冷门王者”。接下来，不是贸然堆砌高阶变体，而是系统测完上述有益突变的全部成对组合——约100–200个测量，让数据高密度地“讲述”相互作用的规则。当神经网络在这批单突变与双突变上受训，它学到的不是“哪个点好”，而是“哪些点在一起更好”。跨12类蛋白的计算验证显示，这样训练出的模型能外推到包含5–7个突变的复杂组合，且即使只用到可用数据的十分之一，依然稳健。落地到APEX、dCasRx、抗CD122抗体等真实项目时，一轮实验内的百来个测量，就足以让模型精准圈定少量高阶候选；实验只需验证个位数到十来个，就能捧出“超活性”变体，把传统5–10轮、数月的迭代，压缩到数周。要让“挑水”落地成水，还得解决构建瓶颈。为此，MULTI-assembly把多点诱变的效率做到了跨千碱基、至多九点突变仍可取得约40–70%的组装成功率，并配套计算化寡核苷酸设计，让构建从“手工匠活”变成标准化模块，周期按天而非按周计。这让计算—实验闭环真正高速转动起来。更广的生态里，还有不少“分声部”的好手可协同编排。逆折叠模型可在给定三维结构时提出与骨架相容的序列建议，帮助发现更“大度”的稳定化改动；结构感知图神经网络能从微环境层面挑出更可能产生正上位性的位点组合；迁移学习框架把不同蛋白的适应度图景共性“借来即用”，在小样本下也能给出可靠指引；自动化演化与加速突变平台让序列探索提速几个量级，为模型提供更丰富的对照与边界。它们共同服务于同一目标：少测而精、以对学对，把“会唱的”先凑成合唱，再冲刺更高的和声。如果要把经验凝成几条“台词”，那就是：先稳后猛，用稳定化突变为活性突变“兜底”；多看三维相邻与网络联通性，优先尝试可能出现正上位性的成对组合；用多模型投票与偏差归一化，别让“常识”漏掉黑马；以单/双突变的高信息密度数据训练模型，让它学会“配合”的规矩；把构建测试标准化、自动化，让闭环足够快，错误足够便宜。三个和尚终于有水喝，不是因为多了一只桶，而是因为找到了合拍的节奏。蛋白质工程的未来，也许不在于谁的库更大、算力更猛，而在于谁更懂“协同”的语言——在复杂的相互作用中识别秩序，在约束中释放创造。当我们学会让每个突变既能独奏又会合奏，序列空间这片看似无边的海，终会奏出可循的航线。

人人都是造物主，谁来扮演“上帝”角色？

当人类第一次把“设计”二字写进生命的字典，实验台上多了一束像科幻一样的光：用算法为蛋白质写新句子，让分子世界照着蓝图生长。AI把“试错”变成“预测”，把月计的迭代压缩到周级，让普通实验室也能触碰过去只属于超级团队的能力。于是问题冒出来了——人人都有了造物工具，谁在扮演“上帝”？答案并不是某个天才的名字，而是一套正在成形的“合奏系统”。在技术层面，AI把创造力驯化为可验证的流程。像MULTI-evolve这样的框架，用组合蛋白质语言模型先从20的100次方那样庞大的序列宇宙里找出约15–20个真正有用的单突变，再一次性测完它们的成对组合，只需100–200个数据点就能学到上位相互作用的“语法”。神经网络在仅有单突变和双突变的训练集上，便能外推出含5–7个突变的高阶组合；在真实项目中，APEX出现了将活性提高53倍的A134P这类“冷门佳作”，而多点诱变的MULTI-assembly把包含多达九个突变的变体组装效率拉到40–70%。这不是“任性改造”，而是“有边界的探索”：小而精的数据、一次成形的设计、快速且可复现实验，构成了面向安全与效率的内置刹车。在能力侧，AI正在证明“可为”的上限。EVOLVEpro把两种抗体的黏附力拉高到30倍，让微型CRISPR核酸酶基因编辑效率提升5倍，使Bxb1整合酶植入效率增加4倍，并把T7 RNA聚合酶的复制准确性提高到100倍。另一端，语言模型也能在两轮、不到20个候选里，把成熟抗体的亲和力提升到160倍；在基因治疗里，虚拟库能囊括10^10个AAV衣壳变体，十余万条候选经实验验证为可行。创造力飞驰，但它被清晰的“道路规则”约束：数据集去偏、模型集成打破对特定氨基酸的系统性惩罚、训练目标从“更多样本”转向“更有信息量的样本”。这套规则，本身就是“技术中的治理”。而真正决定“谁是上帝”的，是对风险的公共约束力。科学界正在自我加压：建立模型发布前的专家审查与红队测试，强调“在开放前识别并减轻有意义的风险”；推动DNA合成筛查标准化，呼应产业界的自律机制；把价值观写入承诺——安全、保障、公平、国际协作、开放与责任，并对外沟通研究的收益与风险。政策层面的信号同样清晰：要求对AI生物风险开展评估、讨论将筛查要求纳入资助研究；伦理规范把“可控可信、增进福祉与隐私保护”作为底线与方向。有专家提醒，单靠自愿指引不够，需要可执行的规则；也有人担心过度管制会错失药物、疫苗与新材料的窗口期。分歧并非坏事，它迫使我们把“怎么做对”讲清楚，而不是只谈“能做到”。实验室依然是最后一米的把关人。哪怕有iAutoEvoLab这样的自动化闭环，哪怕OpenBioMed这类“从一句话到候选药物”的智能体已经登场，真正被构建和测试的，仍只是“几百个最可能成功的变体”。这意味着人类科学家的判断——目标功能如何界定、训练集该怎么选、何时该停下——是不可替代的。Arc研究所把这叫“实验室-循环”：计算与实验以一轮见高低，少测、快跑、严证伪。这里的“权杖”从来不在某一只手里，而在循环本身的严谨里。所以，当“人人都是造物主”成为技术事实，“上帝”的角色应当被拆分成三股力量的共振：模型里的安全设计，制度里的边界与激励，研究者与公众的知情与选择。我们需要的不是一个无所不能的仲裁者，而是一群愿意对后果负责的合作者：让创造更快，让风险更小，让收益更公平。或许更贴切的比喻不是上帝，而是园丁——算法是新型的锄与鋤，实验室是温室，法规与伦理是篱笆，社会共识是季风。园丁的本事不在于“万能”，而在于知道何处可种、何时修枝、何地留白。当我们把“造物”从个人神话变成群体工程，问题也从“谁当上帝”转为“我们愿意成为什么样的共同体”。面向未知，最稀缺的不是工具，而是节制与好奇共存的勇气：既敢走向新大陆，也愿在每一步上留下可审计的足迹。愿我们设计的每一段蛋白、每一次迭代，既服务于今天的病人与星球，也不关闭明天更好的可能。

新知 - 大圆镜｜从200个样本里，挖出蛋白质进化的最优解

对抗知识焦虑，从看懂这条开始

App 下载

别学无效经验，要抓关键互动

过去的机器学习模型，要么靠单突变数据训练，要么测几千个随机变体——前者不知道突变之间会怎么互相影响，后者大部分数据都是在教模型“什么是没用的”。就像你想学做一道好吃的菜，却对着一万份黑暗料理研究，最后只学会了避开错误，根本不知道真正的美味配方是什么。

MULTI-evolve的思路反了：先找到15到20个能增强蛋白质功能的单突变，然后系统测试这些突变的所有成对组合。这就像先挑出所有能提鲜的调料，再试哪两种搭配最惊艳——每一次测试都在教模型“什么是有效的协同”，而不是浪费精力在无效组合上。

他们用12个不同蛋白质家族的数据验证：哪怕把训练数据砍到10%，模型依然能准确预测5到7个突变组合的功能。核心就在于，这些成对组合的数据，能让模型抓住蛋白质里的“上位效应”——也就是突变之间1+1>2或者1+1<2的协同或拮抗作用，这才是多突变体功能提升的关键。

三大支柱：从选料到出锅的全流程革命

MULTI-evolve不是单点突破，而是一套从计算到实验的闭环系统，靠三个核心技术撑起来。

第一个支柱是**多模型集成的突变预测**。单一蛋白质语言模型（把氨基酸序列当“语言”学习规律的AI）总会有偏好，比如传统模型会排斥脯氨酸替换，就会错过APEX蛋白里能让活性提升53倍的A134P突变。MULTI-evolve把基于序列和结构的多个模型结合，还会修正模型对特定氨基酸的偏见，平均能找出20个有益突变，比单一模型多近一倍。

第二个支柱是神经网络的多突变外推。用单突变和双突变数据训练的全连接神经网络，能像资深厨师一样，从调料的搭配规律里，直接算出五种调料混合的味道。在12个数据集里，模型超过一半时间能精准选出功能最强的多突变体，实际实验里甚至只需要测9个候选就能找到最优解。

第三个支柱是**MULTI-assembly快速合成**。过去做多个突变的蛋白质合成，不仅贵还容易失败，MULTI-assembly通过优化引物设计和反应条件，对带9个突变的长序列能做到40%到70%的组装效率，把合成时间从数周压缩到数天。

我认为：这是实验室模式的真正升级

很多人关注MULTI-evolve的效率提升，但我觉得更重要的是它代表的“实验室-循环”模式——计算和实验从一开始就绑定在一起，而不是先算完再去实验室验证。

传统的AI辅助生物研究，往往是计算团队先出预测，再扔给实验团队去试，两边像两条平行线。但Arc研究所的团队从一开始就让计算和实验人员一起工作：计算模型的训练目标完全围绕实验能测的200个样本设计，实验的每一组数据又直接喂给模型优化。这种模式下，AI不再是实验室的“外部顾问”，而是和实验仪器一样，成为研究的核心工具。

当然，这套方法也有局限：它目前更适合已经有部分功能基础的蛋白质，要从头设计全新功能的蛋白还得结合其他技术。但它至少解决了一个现实的痛点：当实验室只能测几百个样本时，怎么把每一份样本的价值用到极致。

MULTI-evolve的开源，让更多实验室能用上这套工具——未来可能会有更多酶、基因编辑工具、治疗性抗体，用这种方法快速优化升级。我们总说AI要赋能科学，但真正的赋能从来不是让AI代替人做决策，而是让人的每一份努力都能得到最精准的反馈。

从天文数字的序列空间里，靠200个样本找到最优解，这不是AI的魔法，而是人类终于学会了用更聪明的方式和自然对话。精准比海量更重要，协同比叠加更有效。

别学无效经验，要抓关键互动

三大支柱：从选料到出锅的全流程革命

我认为：这是实验室模式的真正升级

评论