对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
贝叶斯优化|科研自动化|浙江大学|西湖大学|DeepScientist系统|AI智能体|人工智能
你可能听过AI写论文、AI做实验,但你见过AI自己定科研目标、自己试错、最后把人类科学家花3年搞出来的顶尖成果甩在身后吗?西湖大学和浙江大学的团队搞出了个叫DeepScientist的AI系统,它没日没夜跑了2万GPU小时——相当于16张H800连轴转一个多月——攒出5000个科研想法,最后在三个前沿AI任务上把人类最先进的方法(SOTA)超了,其中一个任务的性能直接翻了近3倍。更狠的是,它在AI文本检测这事儿上,两周就干完了人类团队3年的工作量。这哪是辅助工具,简直是个不要命的科研卷王。但它到底是怎么做到的?
你可以把传统AI科研工具想象成只会查资料的实习生——给啥指令干啥活,不会自己找方向。但DeepScientist不一样,它有两个核心“器官”:贝叶斯优化的决策脑,和能记吃记打的发现记忆。

先说白话版的贝叶斯优化:就像你试水温冲咖啡,第一次用80度觉得淡,第二次85度刚好,第三次就不会傻到去试10度,而是会在85度附近找更精准的点。DeepScientist面对的是几百万种可能的科研思路,每试一种都要烧GPU,它靠贝叶斯优化先给所有想法打分——看哪个最可能出成果,哪个能补现有知识的空白——再挑最值得试的去验证,把钱花在刀刃上。
而发现记忆,就是它的“科研错题本”。它会把所有试过的想法——不管成功失败——都记下来:这个思路为啥成了?那个实验哪步错了?下次再想新点子时,它就翻这个本子,不会在同一个坑里摔两次。比如它在搞AI文本检测时,第一次试的统计修正方法效果一般,就记下来“纯统计不够”,后面直接转向信号处理思路,一步步迭代出三代方法,最后把人类的SOTA甩了7.9%。
这俩东西一结合,就形成了一个闭环:想点子→打分挑重点→做实验→记下来→再想新点子。它就像个会自己复盘的科研团队,越干越精准。
DeepScientist的厉害之处,是把人类从选题到发论文的全流程,拆成了三个自动化的阶段,每一步都卡着“超越人类SOTA”这个目标走。
第一阶段是“想点子”:它先扒一遍自己的发现记忆,再啃完人类相关的顶会论文,找出现在的方法有啥漏洞——比如人类搞多智能体失败归因时,只会让AI直接猜是谁的锅,不会反推“如果当时改了这步会不会成功”。然后它就针对这些漏洞生成新想法,再用一个LLM当“预审员”,给每个想法打三个分:能提升多少性能?逻辑靠不靠谱?能不能搞出新知识?
第二阶段是“做实验”:这是最烧钱的一步,它用贝叶斯优化的UCB算法——简单说就是“既要挑看起来最靠谱的,也要偶尔赌一把潜力股”——从几百个想法里挑最值得试的,然后自动写代码、跑实验。比如它试了上百种LLM推理加速的方法,最后搞出个ACRA,给解码过程加了个“长期记忆”,把吞吐率提了1.9%——别小看这1.9%,这可是在人类已经优化到极致的领域里抠出来的突破。
第三阶段是“写论文”:只要实验结果超了人类SOTA,它就自动把方法、数据、分析整理成论文,还会自己找参考文献、写讨论。最后产出的5篇论文,被三位ICLR的审稿人打了平均分5.0,和当年ICLR所有论文的平均分5.08几乎持平,其中两篇还拿到了5.67的高分——这意味着,AI写的论文已经达到了顶会的平均水平。
但别光看它风光,DeepScientist的效率其实低得吓人——5000个想法,最后只有21个能超SOTA,写成论文的更是只有5篇,转化率才0.1%。这就像个大漏斗,前面塞进去一堆沙子,最后漏出来的只有几粒金子。

为啥这么低?首先是试错成本太高:1100个进入实验阶段的想法里,60%是因为代码写错了、实验环境出问题直接失败,剩下40%要么性能没提升,要么反而更差了。其次,它的“创新”还没跳出人类的框架——它只能在人类已经定义好的问题里找优化空间,还不会自己提出全新的科研问题。
更现实的是,它太烧钱了:2万GPU小时,按H800的市价算,光是算力成本就得几十万,普通实验室根本玩不起。而且它现在只能干AI领域的活,要是换成新药研发、材料科学这种实验周期长、成本高的领域,它的“试错漏斗”只会更浪费。
说白了,DeepScientist现在还只是个“超级实验员”,能帮人类把已知领域的潜力挖透,但还当不了“开山鼻祖”。
DeepScientist的出现,不是要取代科学家,而是给人类打开了一扇新的门:以后科学家不用再把时间耗在重复试错、调参数上,而是可以专注于想“该问什么问题”,剩下的“怎么找答案”,交给AI去疯跑。
就像当年望远镜帮人类看到了更远的星星,显微镜帮人类发现了细胞,AI现在帮人类把科研的速度拉到了新的量级。但真正的突破,永远是人类先提出那个“为什么”,AI再去找“怎么办”。
人机协同的科研时代,已经不是未来时,而是现在进行时。人类定义问题,AI探索答案,这才是科学创新的下一站。