当AI包揽实验，人类科学家还剩什么？

当AI把实验变成高通量流水线，人类最稀缺的不是“做”，而是“定”。定目标、定标准、定约束：哪些问题值得算、成功用什么指标度量、哪些副作用绝不能被交换。目标错置会把算力变成“放大歧义器”，这类价值与边界只能由人给出。接着是“讲清楚”。AI堆出的是相关性与新现象，人类要把它们压缩成因果与理论，设计极限工况去驳倒或加固结论，并做不确定性度量与外部效度校验。像DeepScientist那样千分之一级的想法→成果转化率，恰好需要人类在元层面重构采样策略、评价基准与记忆结构，提升一个数量级的效率。最后是“建系统”。人类要制定数据与算力治理、同行评议与信用分配规则，发明新仪器和表征手段，让不可见的变量可测；同时编排AI工作流与安全护栏，确保发现可复现、可审计、可落地。未来科学家的工具箱里，最重要的是问题设定、理论建构与科研制度设计。

AI科研成本高昂，科学会成富人的专属吗？

短期看，最前沿的“AI自动化发现”确实像大型对撞机：门票高、资源集中，谁掌握大规模算力谁就更容易定义议程。这会放大头部优势，也让“追SOTA”的赛道更像资本游戏。但科学不会因此变成富人的专属。三股力量正在稀释门槛：其一，算法与系统效率正把同等能力所需算力压缩到数量级级别（低比特训练、稀疏MoE、推理加速、模型融合让“复用>重训”成为常态）；其二，“算力公地”在扩张——国家/区域用户设施、云厂商学术与初创credits、基金会式“算力券”，通过评审低价或免费开放；其三，开源基座、标准化数据与可复现实验流水线，让中小团队可把资金投入到问题选择与验证而非重造轮子。结论更现实也更乐观：顶层SOTA竞速会越来越贵，但80%的可检验科学问题，仍能在共享算力+开源模型的框架内完成。关键不在“有多少钱”，而在“怎么选题与复用”——挑选可快速反馈的子任务，借公共数据和现成权重，用效率技巧把每一次实验做薄做快。门槛在移动，大门没关上。

AI靠海量试错成功，人类的失败有何价值？

人类的失败不是“浪费”，而是高密度的信息包。它自带因果解释、情境脉络与价值判断，能把未知的问题空间压缩成可走的几条路。药物研发里约九成项目会夭折，但这些失败暴露毒性通路、剂量窗与可开发性，常被转化为换靶或重定位策略；航空业对“险些出事”的系统复盘让事故率长期下行；甚至偶然失误也能孕育新范式——弗莱明的污染培养皿成就了青霉素。在AI主导的海量试错旁边，人类的失败更像“给算法上先验”。把“为何失败”而非“未达标”写成结构化负结果库、因果图与约束集，用事前检讨（premortem）、失败预算和可复现实验日志，去重写问题边界、伦理红线和评测指标。如此一来，AI的采样函数被人为经验塑形，搜索空间被精准裁剪：试得更少，收敛更快，也更安全。

新知 - 大圆镜｜AI两周干完人类3年活，还超了最顶尖成果

对抗知识焦虑，从看懂这条开始

App 下载

你可能听过AI写论文、AI做实验，但你见过AI自己定科研目标、自己试错、最后把人类科学家花3年搞出来的顶尖成果甩在身后吗？西湖大学和浙江大学的团队搞出了个叫DeepScientist的AI系统，它没日没夜跑了2万GPU小时——相当于16张H800连轴转一个多月——攒出5000个科研想法，最后在三个前沿AI任务上把人类最先进的方法（SOTA）超了，其中一个任务的性能直接翻了近3倍。更狠的是，它在AI文本检测这事儿上，两周就干完了人类团队3年的工作量。这哪是辅助工具，简直是个不要命的科研卷王。但它到底是怎么做到的？

给AI装个“科研大脑”：贝叶斯优化+发现记忆

你可以把传统AI科研工具想象成只会查资料的实习生——给啥指令干啥活，不会自己找方向。但DeepScientist不一样，它有两个核心“器官”：贝叶斯优化的决策脑，和能记吃记打的发现记忆。

先说白话版的贝叶斯优化：就像你试水温冲咖啡，第一次用80度觉得淡，第二次85度刚好，第三次就不会傻到去试10度，而是会在85度附近找更精准的点。DeepScientist面对的是几百万种可能的科研思路，每试一种都要烧GPU，它靠贝叶斯优化先给所有想法打分——看哪个最可能出成果，哪个能补现有知识的空白——再挑最值得试的去验证，把钱花在刀刃上。

而发现记忆，就是它的“科研错题本”。它会把所有试过的想法——不管成功失败——都记下来：这个思路为啥成了？那个实验哪步错了？下次再想新点子时，它就翻这个本子，不会在同一个坑里摔两次。比如它在搞AI文本检测时，第一次试的统计修正方法效果一般，就记下来“纯统计不够”，后面直接转向信号处理思路，一步步迭代出三代方法，最后把人类的SOTA甩了7.9%。

这俩东西一结合，就形成了一个闭环：想点子→打分挑重点→做实验→记下来→再想新点子。它就像个会自己复盘的科研团队，越干越精准。

把科研流程拆成“流水线”：3步从想法到论文

DeepScientist的厉害之处，是把人类从选题到发论文的全流程，拆成了三个自动化的阶段，每一步都卡着“超越人类SOTA”这个目标走。

第一阶段是“想点子”：它先扒一遍自己的发现记忆，再啃完人类相关的顶会论文，找出现在的方法有啥漏洞——比如人类搞多智能体失败归因时，只会让AI直接猜是谁的锅，不会反推“如果当时改了这步会不会成功”。然后它就针对这些漏洞生成新想法，再用一个LLM当“预审员”，给每个想法打三个分：能提升多少性能？逻辑靠不靠谱？能不能搞出新知识？

第二阶段是“做实验”：这是最烧钱的一步，它用贝叶斯优化的UCB算法——简单说就是“既要挑看起来最靠谱的，也要偶尔赌一把潜力股”——从几百个想法里挑最值得试的，然后自动写代码、跑实验。比如它试了上百种LLM推理加速的方法，最后搞出个ACRA，给解码过程加了个“长期记忆”，把吞吐率提了1.9%——别小看这1.9%，这可是在人类已经优化到极致的领域里抠出来的突破。

第三阶段是“写论文”：只要实验结果超了人类SOTA，它就自动把方法、数据、分析整理成论文，还会自己找参考文献、写讨论。最后产出的5篇论文，被三位ICLR的审稿人打了平均分5.0，和当年ICLR所有论文的平均分5.08几乎持平，其中两篇还拿到了5.67的高分——这意味着，AI写的论文已经达到了顶会的平均水平。

光鲜背后的尴尬：5000个想法只成了5篇论文

但别光看它风光，DeepScientist的效率其实低得吓人——5000个想法，最后只有21个能超SOTA，写成论文的更是只有5篇，转化率才0.1%。这就像个大漏斗，前面塞进去一堆沙子，最后漏出来的只有几粒金子。

为啥这么低？首先是试错成本太高：1100个进入实验阶段的想法里，60%是因为代码写错了、实验环境出问题直接失败，剩下40%要么性能没提升，要么反而更差了。其次，它的“创新”还没跳出人类的框架——它只能在人类已经定义好的问题里找优化空间，还不会自己提出全新的科研问题。

更现实的是，它太烧钱了：2万GPU小时，按H800的市价算，光是算力成本就得几十万，普通实验室根本玩不起。而且它现在只能干AI领域的活，要是换成新药研发、材料科学这种实验周期长、成本高的领域，它的“试错漏斗”只会更浪费。

说白了，DeepScientist现在还只是个“超级实验员”，能帮人类把已知领域的潜力挖透，但还当不了“开山鼻祖”。

DeepScientist的出现，不是要取代科学家，而是给人类打开了一扇新的门：以后科学家不用再把时间耗在重复试错、调参数上，而是可以专注于想“该问什么问题”，剩下的“怎么找答案”，交给AI去疯跑。

就像当年望远镜帮人类看到了更远的星星，显微镜帮人类发现了细胞，AI现在帮人类把科研的速度拉到了新的量级。但真正的突破，永远是人类先提出那个“为什么”，AI再去找“怎么办”。

人机协同的科研时代，已经不是未来时，而是现在进行时。人类定义问题，AI探索答案，这才是科学创新的下一站。

给AI装个“科研大脑”：贝叶斯优化+发现记忆

把科研流程拆成“流水线”：3步从想法到论文

光鲜背后的尴尬：5000个想法只成了5篇论文

评论