对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
数学证明自动化|AI自我博弈机制|保罗·埃尔德什悬赏题|Aletheia系统|应用数学|大语言模型|数理基础|人工智能
2026年5月,700道悬置半个世纪的数学难题被丢进AI的算力熔炉。这些难题是传奇数学家保罗·埃尔德什生前留下的悬赏题,50年间无数天才耗尽心血,连50美元的最低悬赏都没人能拿走。但上线仅7天,名为Aletheia的AI系统就撕碎了其中13道。
最讽刺的是,AI既不是靠更聪明的直觉,也不是靠独创的思路——它的解法里,藏着连自己都不知道的旧论文碎片,甚至能给一道本身就错误的题目,生成一份逻辑闭环的“完美证明”。这到底是数学的新曙光,还是一场精心包装的逻辑幻术?
你可以把AI的自我博弈机制,想象成一个自己和下象棋的棋手——它左手提出一个新的数学猜想,右手立刻尝试证明这个猜想,每一次成功或失败的反馈,都会让下一次的猜想更精准,证明更高效。
这套机制的核心,是解决了传统AI数学证明的“稀疏奖励”难题:过去AI只能在人类已有的证明数据里学习,正确的样本少得可怜,就像在沙漠里找水。而自我博弈让AI自己“造水”——它会生成那些“刚好能被证明”的猜想,每一次尝试都能得到明确的反馈,训练效率直接翻倍。
以斯坦福的STP系统为例,它在Lean形式化平台上,通过2400万次证明尝试和360万次猜想生成,把证明成功率从13.2%拉到了28.5%。DeepMind的Aletheia更是把这套逻辑用到了极致:先让Gemini模型狂灌算力生成200个候选证明,再用自然语言验证器筛掉逻辑不通的部分,最后靠形式化工具Lean把剩下的63个证明,打磨成13个能被数学界认可的成果。

如果说自我博弈是AI的“创造力引擎”,形式化验证就是它的“严谨性闸门”——这是一种用计算机能读懂的逻辑语言,把数学证明拆成一步一步的符号推理,每一步都要符合严格的逻辑规则,连一个逗号的错误都藏不住。

Lean就是目前最常用的“闸门工具”之一,它的数学库里已经装下了从基础代数到高阶拓扑的数百万条定理。AI生成的证明只有翻译成Lean语言,通过它的自动验证,才能被数学界承认是“正确”的。
但这套闸门也有漏洞。Aletheia曾给埃尔德什留下的一道错题,生成了长达几十页的“完美证明”——AI只在乎每一步推理符不符合逻辑,却根本不会判断“这道题本身有没有意义”。就像一个只会严格执行指令的工匠,哪怕你让他用黄金打造一块没用的砖头,他也会给你做出一块毫无瑕疵的金砖头。
更棘手的是“潜意识剽窃”:AI的训练数据里装着人类几百年的数学文献,它生成证明时,会无意识地把冷门论文里的思路重新包装,连它自己都不知道这是“借鉴”还是“抄袭”。形式化验证能查逻辑对错,却查不出这些思路的来源。
当AI能批量生成严谨的证明,数学家的角色正在发生本质的变化——他们不再是趴在草稿纸上推导的“解题者”,而是变成了AI成果的“审美法官”和“逻辑审计员”。
陶哲轩曾说,AI擅长“清扫低垂的果实”——那些因为太繁琐、太耗时间,人类数学家懒得碰的难题,AI靠算力就能轻松解决。但数学界真正看重的,从来都不只是“正确”,更是证明里的“美感”:是不是够简洁?有没有带来新的思路?能不能启发更多的研究?
比如GPT-5.4解决埃尔德什1196问题时,用了人类数学家从未想到的von Mangoldt函数思路,这份证明被称为“来自上帝之书”的优雅解法——这种“意料之外,情理之中”的创造力,才是人类数学家不可替代的价值。而AI生成的大部分证明,都只是逻辑正确的“学术垃圾”,冗长、繁琐,毫无启发性。
现在,数学家的工作变成了从AI生成的海量证明里,挑出那些真正有价值的思路,判断哪些猜想值得深入研究,甚至还要帮AI“擦屁股”——找出它无意识剽窃的旧论文,纠正它给错题做的证明。
AI闯入数学界的这一年,与其说它攻克了百年难题,不如说它撕开了数学研究的旧面纱:原来那些被视为“天才专属”的工作,很大一部分只是算力堆出来的繁琐劳动;原来“严谨”和“正确”,也可能是没有意义的逻辑游戏。
逻辑可以代工,但审美无法复制。未来的数学研究,会是一场人机协作的双人舞:AI负责踩稳每一个逻辑的节拍,人类负责跳出那些充满美感的舞步。而这场舞蹈的终点,从来都不是证明多少道题,而是不断拓展人类对“美”和“真”的边界。
逻辑负责正确,审美决定价值。