如果AI能写所有代码，人类程序员干嘛？

就算AI把代码全写了，人类也要决定“写什么、为什么、到什么程度算对”。这意味着把业务目标与约束转成可执行的验收规范与数据契约，做系统边界与架构权衡（延迟/成本/可靠性）。提示、工具与流程的编排本身就是新型“编程”，程序员升级为问题定义者与架构师。随后要守住质量与风险：搭建测试真值与回归集，做威胁建模与红队，对关键路径引入属性测试/形式化验证，制定灰度/回滚/SLA与成本预算；治理语料与知识库，确保可追溯与审计。金融的模型风险管理、医疗软件合规等场景都要求有人类责任人签字，这部分AI替不了。最后是指挥多智能体端到端交付：设计Agent权限与沙箱、工具与数据流DAG、长记忆与版本基线，处理跨系统集成与组织协同。工作从“写函数”升级为“写流程、写政策、写评测”：AI产实现，人类定边界、控风险、保价值——角色更像AI指挥官、系统架构师、模型/数据治理与合规负责人。

能处理30万行代码的AI，会先发明什么？

先落地的会是“仓库级自动重构/迁移机”。当AI一次性把全仓库的依赖、调用链、数据流装入脑内，它最先能稳定赚钱的事不是从零造物，而是把庞大遗留系统安全地改对：一键升级语言/SDK、切分单体成微服务、生成数据库迁移与回滚脚本、串联多批次PR并自带合成测试和回归卫兵。把原本以月计的改造压缩到天级，同时把风险可视化、可回溯。紧随其后的是“零日补丁工厂”。利用对30万行级别的跨文件语义掌握，AI能把SBOM、CVE订阅、静态/污点分析合起来，产出最小化补丁与重现实验，附带性能回归与兼容性证明，必要时给出eBPF热补丁与临时防护策略。这类“改动小、收益大、可验收”的任务最容易在金融、运营商等高合规行业率先规模化部署。更具野心的“系统级对话开发导演”会稍晚一些出现：你用自然语言描述一个跨服务新特性，它完成架构设计、接口协议、前后端改造、灰度与回滚方案，并在公司内的数字孪生环境全链路演练。真正的门槛不在理解30万行代码，而在可重复的环境编排与强约束验证；一旦这些基建齐备，项目级“点题—交付”将成为常态。

为何改变AI的天才，世人却不知其名？

因为当下的AI是“基础设施型创新”。预训练语料、优化器、RL微调、数据工程这些决定上限的活，既难做演示、也很少有独立署名，最终被产品外壳与品牌名一把兜住。媒体与资本需要“可讲述的人物”和发布会时刻，传播资源天然向创始人、代言人倾斜；企业法务与专利归属限制个人发声，国内大厂还强调统一口径，技术负责人难以经营个人IP。学术影响力指标与大众传播指标弱耦合，论文被引再高，也不自动转化为社会心智。而代码智能与推理更是“隐形功臣”。像CodeBERT、GRPO这类方法改变的是模型学得更深、更省、更准，用户只感到“V3/V4更会写代码、更会解题”，功劳被归因给版本号与公司Logo。加之大模型研发高度协作、品牌署名稀释个体贡献，名字被淹没在长作者列表里。除非研究者以个人旗帜发布重量级开源、在大会与社媒持续讲述方法学，或把名字与机构强绑定，公众记住的永远是产品与公司，而不是把齿轮校准的那只手。

新知 - 大圆镜｜AI读懂代码算对数学，靠的是这两套机制

对抗知识焦虑，从看懂这条开始

App 下载

让AI听懂人类需求的双模态魔法

你可以把早期的AI代码模型想象成只会背单词的外语学习者——能认出代码里的每个符号，却看不懂整段代码的逻辑，更没法理解人类用自然语言说的"我要一个能统计用户行为的函数"。直到2020年，CodeBERT的出现打破了这堵墙。

这是首个能同时处理自然语言和编程语言的双模态预训练模型。它的核心创新是把两种完全不同的语言放进同一个训练体系：一边是213万对"自然语言描述-代码片段"的配对数据，让AI学习"统计用户行为"和user_behavior_counter()之间的对应关系；另一边是645万条无注释的纯代码，通过一种叫"替换标记检测"的任务，让AI像玩找不同游戏一样，学会识别代码里的语义逻辑。

简单说，之前的AI看代码是看一串符号，CodeBERT看代码是看一段有意义的"文字"——它能把人类的需求翻译成代码，也能把代码翻译成人类能懂的说明书。这种能力后来成了所有AI代码工具的基础，从GitHub Copilot到各类代码助手，本质上都是这套双模态思路的延伸。

用一半算力让AI算对数学的强化学习

如果说双模态预训练解决了AI"听懂问题"的难题，那数学推理就是要让AI"会解难题"。2024年之前，大模型做数学题经常犯低级错误，要么算错加减乘除，要么在多步骤推导中逻辑崩盘，而且训练这类模型需要巨量的算力——直到GRPO算法的出现。

GRPO的全称是群体相对策略优化，它是对传统强化学习算法PPO的一次简化革命。传统PPO训练AI做数学题时，需要同时训练两个模型：一个负责解题，一个负责给答案打分（价值函数），就像老师既要教学生做题，又要实时批改作业，成本极高。

GRPO直接砍掉了打分的模型。它让AI针对同一道数学题生成多个答案，然后只比较这些答案的相对好坏——比如给正确答案打1分，错误答案打0分，再让AI学习"怎么生成更多得1分的答案"。这种方式不仅把训练资源消耗降低了一半，还让AI的数学推理能力突飞猛进：用70亿参数的模型，在MATH竞赛数据集上拿到了51.7%的准确率，性能接近GPT-4和Gemini-Ultra。

更关键的是，GRPO不需要依赖人类标注的偏好数据，只要能自动验证答案对错就能工作——这让它能快速推广到所有有明确对错标准的任务上，比如代码调试、逻辑推理，甚至是化学分子式推导。

真实世界里的AI能力天花板

但这些技术还远没到完美的地步。在实验室的基准测试里，AI能在代码生成和数学推理上拿到高分，但一到真实世界就露怯：面对超过10万行的大型代码库，AI会因为上下文太长而"失忆"；面对需要结合多个领域知识的复杂数学题，AI会在中间步骤逻辑断裂。

比如在真实的软件开发场景中，代码不是孤立的函数，而是嵌套在多层类、依赖第三方库、包含异常处理的复杂系统——目前最好的AI模型在处理这类任务时，准确率会比处理简单函数下降50%以上。数学推理也是一样，实验室里的题目都是标准化的，但真实世界里的问题往往没有明确的题干，需要先拆解问题，再选择合适的方法。

为了突破这些天花板，现在的研究者正在把双模态预训练和GRPO这类算法结合起来：让AI用代码的逻辑来辅助数学推导，用数学的严谨性来优化代码生成；同时拉长模型的上下文窗口，让AI能处理百万级别的代码或推理步骤。但这些进步，依然离不开像郭达雅这样的研究者在底层机制上的持续创新。

当我们讨论AI的代码智能和数学推理能力时，很容易陷入对参数规模、跑分数据的追逐，却忽略了真正驱动进步的，是那些改写底层规则的机制创新——是让AI能跨语言理解的双模态预训练，是让AI能用更少资源学更多的GRPO算法。

技术的迭代永远会有新的突破，但每个突破的背后，都是一个个研究者在实验室里反复试错、打磨细节的结果。机制创新，才是AI智能跃迁的核心引擎。未来AI能走多远，依然取决于我们能找到多少像双模态预训练、GRPO这样，能让AI真正"理解"和"思考"的底层逻辑。

让AI听懂人类需求的双模态魔法

用一半算力让AI算对数学的强化学习

真实世界里的AI能力天花板

评论