顶尖代码优化，藏在开源社区？

是的，很多“尖子生”优化确实埋在开源社区的分叉与异构后端里。原因并不神秘：成熟 GPU 路线（如 cuBLASLt 的 epilogue 级融合、LayerNorm/激活融合、cache 友好的 tile）先行验证，主线为了可维护和兼容性滞后合并；而性能导向的分叉敢于改权重量化布局、重写内核，形成“可移植的优化模式库”。把这些模式横移到 CPU/不同量化格式，往往就是稳健的百分比级收益。想把“藏品”挖干净，有一套行之有效的打法：先纵向对比同一项目的多后端/多设备实现（GPU 往往更激进），再横向 diff 高星分叉与未合并 PR，专找含“fuse/epilogue/tiling/repack”的改动；用 roofline 判断瓶颈，优先挑能少一次内存遍历、少一次中间写回、或改进张量布局的改动；最后在裸机做 A/B 构建与多轮重复，配合更严格的图级正确性检查与量化格式约束评估。能过这三道坎的，才值得 upstream。

AI能发明人类未知的算法吗？

可以，而且已经发生。除了你看到的AlphaEvolve，早在2022年DeepMind的AlphaTensor就自动发现了新的矩阵乘法方案，在特定矩阵规模与GPU上带来约10–20%的实测加速；2023年的AlphaDev用强化学习在汇编空间里“发明”更快的排序与哈希内核，被并入LLVM/Abseil，小数组排序最高提速约70%，常用路径也有1–2%的稳健收益。类似的FunSearch还在组合数学中给出人类未写下的构造。但边界同样清晰：当下AI更擅长在可快速打分、可仿真自博弈的受限设计空间里产出“新算法”，成果多半偏场景化，缺乏可证明的正确性与复杂度保证，仍需形式化验证与人类审校，避免对基准过拟合。要走向更普适的算法发明，关键是把程序搜索与定理证明、符号推理、硬件感知成本模型深度耦合，让“更快”与“可证、可迁移、可解释”同时成立。

AI成高工，程序员该学啥？

当AI能写函数、抠SIMD，人要上层做“问题设定与实验设计”。补齐性能科学这门硬功：用roofline判定算力/带宽瓶颈，吃透缓存与NUMA、数据布局与算子融合何时能省一次内存通道；熟练perf/VTune/火焰图与硬件计数器；理解编译器矢量化与CSE会自动做什么；会做严谨A/B、可复现实验与靠谱基准。接着学“指挥代理而非替代它”。把经验变成可执行的约束与工具：明确指标与正确性oracle，干净的JSON Schema/MCP工具接口，安全默认的特性开关；会编排多机实验与成本—性能权衡，处理云上噪声与统计显著性（重复测量、方差阈值）。把性能门槛接入CI，做回归与安全的守门员。再把横向的“工程+产品”补齐：高效扫论文与竞品，提炼可迁移启发；搭建RAG/推理评估中台与数据闭环；设计人机协作流程与合规、隐私、许可风险控制。纵向至少深耕一处（内核与量化、推理服务与调度、系统安全）。AI会写代码，你要让它写对、写快、写得可验证。

新知 - 大圆镜｜AI读论文抄竞品，3小时把代码提速15%

对抗知识焦虑，从看懂这条开始

App 下载

从瞎调到精准：AI学会了「先调研再动手」

过去的AI代码优化，就像没做功课就上场的实习生——对着现有代码改循环、调参数，最多在局部做些微调整，碰到内存带宽这种底层瓶颈就束手无策。这次实验的突破，在于给AI加了「前置调研」环节：先读arXiv论文找学术思路，再扒竞品代码看行业实践，最后分析硬件手册摸透平台特性。

你可以把这个过程类比成装修：以前的AI是拿到锤子就砸墙，现在它会先看户型图、参考邻居的装修方案、搞清楚承重墙在哪。比如它发现CUDA和Metal后端早就用上了「算子融合」——把多次内存读写合并成一次，减少数据搬运，但CPU端居然没做；又注意到ik_llama.cpp这个分支里，有两个能直接复用的优化技巧。这些信息，光看目标代码根本找不到。

直给补刀：算子融合的核心是「减少内存访问」——AI把原本需要三次遍历的Flash Attention QK tile操作，塞进了单次AVX2 FMA循环里，让数据在CPU缓存里完成计算，不用反复跟内存打交道，直接把内存带宽压力砍了三分之二。

5个优化落地：AI的「工程师式思考」

30多个实验里，最终有5个优化落地：4个是算子融合，1个是自适应并行化。最狠的那个，把Flash Attention里的缩放、掩码、找最大值三个步骤，揉进了同一个AVX2指令循环。

这里藏着一个关键认知：AI终于搞懂了「瓶颈在哪」。一开始它也像传统优化那样，死磕SIMD指令和循环展开，但测出来最多涨0.9%，甚至还出现过-2.8%的倒退。直到它读完论文、分析完硬件数据才明白：CPU上的LLM推理，根本不是计算能力不够，是内存带宽跟不上——数据在内存和缓存之间来回跑的时间，比计算本身还长。

于是它立刻调转方向：不再跟计算单元死磕，转而优化内存访问模式。比如把Softmax的三次内存遍历合并成一次，把RMS Norm和乘法操作捏成一个内核。这些改动没碰核心计算逻辑，却让x86平台的文本生成速度直接涨了15%，还顺带把性能波动从±19%压到了±0.59%——让代码跑起来稳得像老司机。

不是万能神：AI优化的「阿喀琉斯之踵」

但这并不意味着AI能替代人类工程师。这次实验里，AI踩的坑不比人少：它写的基准测试脚本曾把52t/s的速度错算成14t/s，差点把有效优化当成垃圾扔了；它一开始搞的算子融合用了标量循环，反而比原来的SIMD代码还慢；甚至还犯过「没检查中间变量是否被其他节点引用」的低级错误，差点搞出空指针。

更关键的是，AI的「调研」还停留在「抄作业」阶段——它能发现CUDA有而CPU没有的优化，却没法凭空发明出Flash Attention这种底层创新；它能把竞品的技巧搬过来，却没法判断某个优化在长期维护上的成本。比如这次落地的5个优化里，有2个直接来自ik_llama.cpp和CUDA后端，真正靠自己从论文里挖出来的创新少之又少。

当AI开始像工程师那样做调研、找瓶颈、试实验，代码优化的效率被推到了新高度。但我们更该看到的是：AI的优势从来不是「创造」，而是「高效复用人类已有的知识」——它能在3小时内读完人类半年积累的资料，能并行跑30个实验验证想法，但最核心的创新，依然来自人类对底层规律的突破。

未来的软件开发，会是一场「人类找方向，AI填细节」的协作：人类负责提出问题、定义架构、判断长期价值，AI负责把论文里的思路、竞品里的技巧快速落地成代码。真正的效率革命，从来不是AI替代人类，而是让人类从重复劳动里解放出来，去做只有人能做的事。

从瞎调到精准：AI学会了「先调研再动手」

5个优化落地：AI的「工程师式思考」

不是万能神：AI优化的「阿喀琉斯之踵」

评论