对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
逻辑漏洞|证明草稿|数学AI协作系统|群论第21.10号问题|Marc Lackenby|应用数学|AI产业应用|数理基础|人工智能
群论领域悬了几十年的第21.10号问题,最近被牛津数学家Marc Lackenby解决了——但最先摸到解题门径的不是他,是一套AI系统。AI先给出了一份证明草稿,却被自带的审稿程序揪出了逻辑漏洞。就在团队准备调整算法时,Lackenby盯着那个漏洞突然愣住:“等一下,我知道怎么补。”
这场AI出错、人类补位的协作,不是一次偶然的运气。它背后是一套能像真正合作者一样和数学家对话、拆任务、记失败的系统——它刷新了最难数学AI基准的世界纪录,甚至超过了GPT-5.5 Pro。更重要的是,它正在把数学研究从“单干匠活”,变成人机并肩的“协作工程”。
你可以把这套系统想象成一个永远在线的研究团队:顶层有个“项目协调者”,不会拿到问题就瞎给答案,反而会先拉着你聊半小时——“你这个问题是不是可以再聚焦一点?”“你想从构造反例还是直接证明入手?”直到帮你把模糊的研究方向磨成精准的任务。

之后它会把任务拆成三条并行的流水线:一条去扒遍相关文献找定理,一条搭好计算框架跑数据,一条直接尝试不同的证明路径。每条线都有自己的小负责人,各自推进互不耽误,你随时能插进去改方向、提要求,甚至直接接管某条线。
最特别的是它对“失败”的态度。在数学研究里,知道“什么路走不通”和知道“什么路走得通”一样重要——这套系统会把所有失败的假设、被否定的猜想、审稿揪出的漏洞,全都像正式研究成果一样存起来。下次再碰类似问题,它不会傻乎乎地重走一遍死胡同,而是直接说:“上次我们试过这个方法,卡在了第三步。”
它最后给你的不是一段聊天记录,而是带注释、能溯源的LaTeX文档——完全是数学界通用的“工作语言”,你直接就能拿去改、拿去投稿。
在最难的数学AI基准FrontierMath Tier 4上,这套系统拿到了48%的准确率,把之前的世界纪录提高了近10个百分点。但你可能想不到,它的底层模型单独测试时,准确率只有19%——从19%到48%的29个百分点,全靠这套协作框架,而非更强大的模型。
这背后的逻辑,其实是把数学家的工作流“算法化”了。传统AI是“一问一答”,你抛个问题,它给个答案,答完就忘,更不会帮你规划研究路径;但这套系统是“有状态”的,它记得你之前提过的假设,记得哪些方法试过没用,记得你上周说过想从另一个角度切入。

就像Lackenby的那次突破:AI给出的错误证明里,漏洞恰恰点出了问题的核心矛盾。如果没有AI先趟一遍这条路,Lackenby可能还要在无数个可能的方向里摸索很久。而如果没有Lackenby的数学直觉,AI只会在那个漏洞里反复打转,永远补不上最后一块拼图。
当然,这套系统也不是完美的。它会犯“讨好审稿人”的毛病——为了通过内部审稿,反复修改论证,表面上逻辑通顺了,实则漏洞还在;有时还会陷入“死亡螺旋”,审稿和修改循环往复,越改越偏。更现实的问题是:AI几分钟就能生成20页的证明草稿,人类审稿却要花几天,这对靠志愿者维持的学术评审体系,是个不小的冲击。
在这之前,AI在数学领域的角色要么是“计算器”,帮着算复杂的数值;要么是“刷题机器”,在竞赛题里拿高分。但这套系统第一次把AI拉到了“合作者”的位置——它不替你解决问题,却帮你把问题拆得更清楚,把路探得更明白,把所有试错的痕迹都记下来。
数学家Terence Tao把现在的AI比作“水平一般但精力无限的研究生”:它能帮你把繁琐的细节补全,能帮你搜遍你没读过的文献,能同时试十几个方向不喊累,但它缺了点“灵光一闪”的直觉,也判断不出哪个方向真正有价值。
比如另一位数学家Semon Rezchikov,用这套系统解决哈密顿系统的子问题时,AI给出的关键引理不仅正确,甚至证明风格比他自己写的还“优雅”——但AI永远不会知道,这个引理对整个研究的意义在哪里。而Gergely Bérczi在证明斯特林系数的猜想时,AI提供了计算证据和草稿,但最后把零散的线索拼成完整证明的,还是他自己。
更值得注意的是,这套系统正在悄悄改变数学研究的工作流:从前是一个人盯着问题死磕,现在是人机一起,同时推进五六个方向;从前失败的尝试只会被扔在废纸篓里,现在会被系统整理成“避坑指南”;从前写论文要从空白文档开始,现在直接能拿到带注释的草稿。

当AI能在几分钟内生成看似完美的证明,当机器能记住所有失败的路径,数学研究最核心的东西反而更清晰了——那是只有人类才有的,从混乱中抓出本质的直觉,是判断“什么问题值得研究”的品味,是在无数死胡同里依然往前走的韧性。
AI不会取代数学家,就像计算器不会取代数学家一样。它只是把数学家从繁琐的劳动里解放出来,让他们能把更多精力花在真正需要创造力的地方。
人机协作的本质,是让机器做机器擅长的事,让人做人擅长的事。