新知 - 大圆镜｜用C写C编译器：一台能复制自己的机器

对抗知识焦虑，从看懂这条开始

关于大圆镜

大圆镜（dyj.live）·中文科普知识平台。1000+ 顶级一手科学信源（arXiv / Nature / Cell / DeepMind / 中科院等五层体系），每日精选 200+ 条世界级科学新知，AI 锐评 + 人工把关 + 完整证据链。

大圆镜是什么？

大圆镜（dyj.live）是中文科普知识平台，提供最新鲜的、可循证的硬核知识。以 1000+ 顶级一手科学信源（arXiv / Nature / Cell / DeepMind / 中科院等五层体系）为根基，每天精选 200+ 条世界级科学新知，AI 编辑流水线 + 人工把关完成锐评、深度解读、脉络梳理与真理追问。

大圆镜的内容跟其他科技媒体有什么不同？

不做二手搬运。每条都可追溯到原始一手信源（学术论文、机构发布、实验室博客），文末附 3-50+ 个学术 / 媒体 / 百科信源含发表年份与被引数。每条均经「信源权威度 + 新颖性 + 跨源验证 + 公众可读」多维评分入库。

大圆镜覆盖哪些学科？

全科普谱系，10 大领域：人工智能与计算、生命科学与医学、脑科学与认知、量子物理与天体物理、化学与材料、天文与空间、地球与环境、数学与统计、能源与工程、经济与社会。关键词含大语言模型、基因编辑、聚变能源、脑机接口、量子计算、商业航天、AlphaFold、CRISPR 等。

大圆镜接入了哪些信源？

1000+ 顶级一手信源，分五层：L1 预印本（arXiv / bioRxiv / medRxiv 等约 2,500 篇/日）、L2 顶级期刊（Nature / Science / Cell / NEJM / PNAS 等约 95 刊）、L3 机构 PR（NASA / NIH / 中科院 / MIT 等约 120 家）、L4 产业实验室（OpenAI / DeepMind / DeepSeek 等约 45 家）、L5 同业策展（Quanta / 量子位 / 机器之心等约 45 家）。

大圆镜的内容是 AI 生成的吗？

是 AI 编辑流水线 + 人工把关的工业化产线。AI 负责信源监控、标题生成、锐评撰写、多维评分；人工负责上线前的复审、阈值调整、质量持续迭代。所有信源、数据、引用均可溯源，不编造事实。

大圆镜有哪些产品模块？

七大产品矩阵：① 新知（个性化深度信息流，Web + App）② 灵镜岛（知识图谱式学习模块，App 端深度体验）③ 镜界（经认证科学家共建社区，App 端深度体验）④ 新知电报（分钟级科学进展快讯 + 突破性进展推送，App 端深度体验）⑤ 镜选（充电热榜，用户共创选题）⑥ 镜选片场（≥ 100 充电的待制作选题流水线）⑦ 视频（400 万粉「大圆镜科普」账号 IP 系列 + App 独家彩蛋）。

灵镜岛是什么？跟刷文章有什么差别？

灵镜岛是大圆镜 App 内的知识图谱学习模块。把每天产出的科学新知按「概念节点 + 关系边」织成认知地图，支持从入门概念到学术原文的多层级跳读。区别于「刷文章只看碎片」，灵镜岛让用户系统性掌握一个学科。

镜界是什么？里面的科学家是真实的吗？

镜界是大圆镜 App 内的科学家共建讨论社区（类似微信读书的「书友」模块）。采用实名认证制，目前认证身份为高校教师与机构研究员（蓝标），每位档案含所属机构、研究方向、代表论文。社区围绕大圆镜每日新知展开讨论 —— 读者可一键把新知文章里的精彩评论分享到镜界发起更广对话。

大圆镜的「充电」是什么？怎么影响内容生产？

「充电」是 App 内的支持机制（相当于「投票 + 关注」）。读者给镜选热榜的选题充电，累计达到 100 票即进入镜选片场（待制作流水线），按票数高低依次进入大圆镜制作排期。整个过程对所有读者透明可见，可追踪选题从充电到上线的每一步。

「大圆镜科普」视频账号是什么？《大脑简史》等 IP 在哪看？

「大圆镜科普」是大圆镜旗下视频科普账号，全网粉丝 400 万+，运营七大科普 IP 系列：《大脑简史》《生命科学简史》《人工智能简史》《古生物简史》《瘟疫简史》《成瘾简史》《未解之谜》。日常视频在 B 站、抖音、小红书、百家号等平台发布；大圆镜 App 内同步全集，并独家提供彩蛋内容、配套图片壁纸、BGM 素材、视频对应的文字版深度解读。

想象一下，有一台机器能读懂自己的设计图，然后造出另一台一模一样的自己——这不是科幻，而是程序员沃伦·图米在GitHub上完成的现实：他用C语言的子集，写出了一个能编译自己的C编译器。

这个项目花了64个阶段才完成，从最基础的词法扫描，一步步迭代到支持指针、结构体、函数调用，甚至能生成ARM和摩托罗拉6809处理器的汇编代码。最神奇的是，它最终能把自己的源代码喂进去，吐出一个功能完全一致的新编译器。这背后的技术，就是自举编译器——一种能自我复制、自我进化的程序工具。但它到底是怎么打破「先有鸡还是先有蛋」的死循环的？

打破鸡生蛋死循环：自举的基本逻辑

你可以把自举编译器的诞生，看成一场「从极简到完整」的接力赛。

第一步，得先有个「火种」——用汇编或者更简单的语言，写出一个只能处理C语言最小子集的「婴儿编译器」。它不用太聪明，能读懂变量、加减乘除和简单的if语句就行。这就像先造出一台只能拧螺丝的简易机床。

第二步，用这个「婴儿编译器」能读懂的C子集，写出一个功能更完整的编译器代码。再用「婴儿编译器」把这份代码编译成可执行程序——这就得到了「少年编译器」，它能处理更多语法，比如循环、函数。

接下来就是关键的自举时刻：用「少年编译器」去编译它自己的源代码。如果一切顺利，就能得到一个和自己功能完全一致的「成年编译器」。从此之后，它就可以自我迭代了——新版本的编译器代码，用旧版本编译就能生成，再也不需要依赖其他语言的工具。

这个过程的核心，是用语言的子集去构建语言的全集，再用全集反过来覆盖子集。就像用一把小锤子，敲出一把更大的锤子，最后用大锤子把小锤子换成和自己一样的大锤子。

从词法扫描到自验证：64步的硬核细节

沃伦的64个阶段，每一步都是在给这个「能复制自己的机器」添砖加瓦。

最基础的是词法扫描和语法分析——这相当于给编译器装上「眼睛」和「语法书」。词法扫描会把你写的代码拆成一个个最小的「单词」，比如int、=、5；语法分析则会按照C语言的规则，把这些单词拼成有意义的句子，判断你写的代码是不是符合语法。这两步就像老师批改作文，先看每个字对不对，再看句子通不通。

之后的阶段，就是一步步给编译器加功能：先支持变量，再支持循环，接着是函数、指针、结构体。每加一个功能，沃伦都要先在编译器代码里实现对这个功能的解析能力，再确保编译器能把包含这个功能的代码，正确转换成机器能懂的汇编指令。

到了第60阶段，项目迎来了关键的「三重测试」：用现有的编译器编译源代码得到版本A，再用版本A编译源代码得到版本B，最后比较版本A和版本B的二进制文件是否完全一致。如果一致，就证明这台机器真的能精准复制自己了。

更值得关注的是，这个编译器不仅能在x86平台运行，还能生成ARM和6809处理器的代码。这意味着它打破了平台的限制，能在不同的硬件上「复制」自己。

光环背后：自举的隐忧与权衡

自举编译器听起来完美，但它也不是没有代价。

最明显的是启动门槛极高。你得先写出那个「婴儿编译器」，而这需要对汇编语言和硬件架构有深入理解——相当于你得先学会用原始工具造出第一把锤子。沃伦的项目能顺利推进，也借鉴了另一个开源编译器SubC的代码和思路。

还有一个隐藏的风险，就是肯·汤普逊在1984年提出的「信任信任攻击」：如果最初的「婴儿编译器」被植入了后门，它会在编译后续版本时，悄悄把后门也复制进去。即使你后来修改了源代码，只要用被污染的编译器编译，后门依然会存在。这种攻击像病毒一样潜伏在自举链里，很难被发现。

另外，自举也可能让语言设计陷入僵化。为了保证编译器能自举，语言的新特性必须先考虑编译器能不能用自身实现，这可能会限制语言的创新。比如有些复杂的语法糖，因为会让自举变得过于复杂，就可能被放弃。

沃伦最终停止了这个项目，转向开发新的编程语言alic，但这个64阶段的自举编译器，依然是编译器领域的一个经典实践。它不仅证明了自举的可行性，也为后来的学习者铺出了一条清晰的路径。

自举编译器的本质，其实是用代码构建代码的元能力——它让编程语言不再依赖外部工具，真正实现了自我闭环。就像生命从简单的有机分子，进化出能自我复制的DNA一样，自举编译器就是程序世界里的「自我复制基因」。

用语言构建语言，用程序生成程序。 这不仅是技术的突破，更是对「代码能做什么」的一次重新定义：当程序能复制自己、进化自己时，它就不再只是人类的工具，更成了人类延伸创造力的载体。

脉络

1971年

David Gries出版《Compiler Construction for Digital Computers》，首次系统介绍了高级语言（如FORTRAN）编译器的主要技术，对编译器理论和实践的结合起到奠基作用。

1972年

Alfred V. Aho出版《The Theory of Parsing, Translation, and Compiling》，推动了编译器解析、翻译等基础理论发展，是后续编译器研究的重要理论基础。

1977年

Alfred V. Aho等人出版《Principles of Compiler Design》，该书成为全球编译原理教学与研究的权威教材，影响深远。

1978年

S. C. Johnson开发Yacc（Yet Another Compiler Compiler），为程序员提供了高效的语法分析自动生成工具，极大推动了编译器自动化开发。

1981年

David J. Kuck团队提出依赖图模型，首次将依赖图用于编译器优化，奠定了现代程序优化理论基础，促进了高性能计算编译器的发展。

1986年

Alfred V. Aho等人出版《Compilers: Principles, Techniques, and Tools》（龙书），成为编译器领域最具影响力的教材和参考书，标准化了编译器设计流程。

1986年

David Padua等人提出面向向量机和多处理器的高级编译优化方法，推动了面向高性能计算的编译器技术进步。

1991年

Andrew W. Appel提出使用continuations（延续）表达程序的控制和数据流，为函数式语言和高级控制结构的编译提供新思路。

1992年

Todd C. Mowry开发软件控制的数据预取编译算法，显著提升了内存密集型程序在现代处理器上的性能。

1992年

Robert William Gray等人发布Eli编译器构建系统，支持灵活可扩展的编译器自动生成，推动了编译器工具链的发展。

1993年

G.C. Sih等提出动态层次调度启发式算法，首次将编译时调度应用于异构多处理器架构，提升了系统利用率和效率。

1994年

David F. Bacon等系统总结高性能计算领域的编译器变换技术，为后续并行与优化编译器研究提供理论基础。

1996年

Michael Wolfe出版《High Performance Compilers for Parallel Computing》，详细论述并行计算环境下的编译器设计与优化，推动并行编译技术发展。

1997年

Steven S. Muchnick出版《Advanced Compiler Design and Implementation》，系统总结了现代编译器设计与实现的复杂问题和解决方案。

2001年

Ken Kennedy等提出依赖分析驱动的优化编译方法，适应现代高性能微处理器架构，提升了编译器生成代码的效率。

2002年

Görel Hedin等人发布JastAdd，首次将面向切面编程思想引入编译器构建，实现了模块化与可扩展性。

2006年

Xavier Leroy团队开发并形式化认证了编译器后端，首次用严格数学证明保障编译器语义正确性，推动编译器可信计算。

2007年

Torbjörn Ekman等人完善JastAdd系统，增强了其模块化和可扩展性，推动了编译器自动化生成技术。

2009年

Xavier Leroy团队开发CompCert C编译器，首次实现工业级C编译器的形式化验证，极大提升了关键系统软件的安全性和可靠性。

2010年

James Bergstra等人开发Theano，将数学表达式编译到CPU和GPU，实现了Python数值计算的高性能自动优化，开启机器学习编译器新方向。

2011年

Xuejun Yang等人开发Csmith，利用随机生成C程序自动发现编译器漏洞，推动了编译器可靠性测试方法的进步。

2018年

Tianqi Chen等人发布TVM，实现深度学习模型到多种硬件的自动优化编译，极大推动了AI模型部署的高效性和可移植性。

2021年

Chris Lattner等人推出MLIR，提出可扩展、可重用的多层中间表示，极大提升了领域专用编译器的开发效率。

2021年

Davide Ferrari等人针对分布式量子计算架构，提出面向网络通信的编译器设计方法，为量子计算编译器研究提供新方向。

2021年

Qingchao Shen等人系统研究深度学习编译器中的缺陷，为提升DL编译器的健壮性和可靠性提供了理论和实践参考。

2021年

Guixin Ye等人提出深度模糊测试方法，自动发现JavaScript引擎中的编译器兼容性问题，提升了Web平台的稳定性。

2022年

Francesc Verdugo等人介绍Gridap有限元软件包，基于Julia JIT编译器实现高性能计算，展示了JIT编译在科学计算领域的应用价值。

2022年

Chris Cummins等人发布CompilerGym，为AI驱动的编译器优化研究提供标准化实验环境，促进了编译器与机器学习的交叉创新。

2023年

Jiawei Liu等人开发NNSmith，自动生成多样且有效的测试用例，用于深度学习编译器的鲁棒性验证，提升了AI系统的可靠性。

2026年

Christopher Jacob Smith提出“Compiler of the Void”框架，探索面向TRU AGI的空导向体系结构及编译器理论，为未来智能计算架构提供新思路。

2026年

Yuusuke Harada提出约束-编译与知识融合的新框架，用于提升多模态异构数据发现的健壮性和可解释性，推动编译器在数据科学领域的应用。

2026年

Sarath Sreedharan等人将模型解释问题编译到Stackelberg与FOND规划问题，为编译器解释性和自动化分析提供创新方法。

2026年

Travis Raymond-Charlie Stone开发Stone Python Compiler，提出继承波架构（SWA），探索符号分辨的机械化实现，拓展了Python编译器设计思路。

2026年

Yingwei Zheng提出Agentic Harness框架，利用大模型辅助修复真实世界编译器漏洞，推动AI辅助编译器维护和可靠性提升。

2026年

Jiahui Xu等人分析基于MLIR构建高层次综合（HLS）编译器的经验，总结了MLIR在硬件编译器领域的优势和挑战。