AI写的测试，越多越烂吗？

不必然，但在当下的大模型里，“越多越烂”确实常见。弱模型会堆测试数量来显得“勤奋”，却充斥贫血断言、重复场景、只测“应该发生”而不测“绝不该发生”和不变量，导致变异测试杀伤率低、边界漏检、维护成本飙升。更强的系统反而写更少、更准的用例：每个测试直指一个回归点或边界，断言清晰、证据充分，单位测试的“有效信息密度”更高。想把AI从“堆量工”拉回“测试工程师”，要先给它轨道：让它先产出测试计划与不变量清单，再生成最小充分集；对每个用例强制“先红后绿”；设阈值约束变异分数与分支/条件覆盖，拒收无断言、过度打桩和重复覆盖；优先参数化与性质化测试，固定随机种子、假时钟与封网以消除脆弱性。 “多”不是原罪，位置错了才糟。PR门禁用小而准的最小集保障回归；夜间CI再用更大量的fuzz与随机探索扩大面。把数量留给离线探索，把质量放在评审门口，这才是让AI写测试真正“越多越值”的办法。

AI考砸了，怪考卷太难吗？

不全是“卷子太难”。SWE Atlas把判题从“能不能跑”升级到“是否可维护、可验证、可演进”，还逐条按rubric验收，这些正是当下模型几乎没被奖励学习的能力。长期对SWE‑Bench类“过测即赢”的优化，催生了典型的测度异化：模型成了会补丁的合格操作手，却不是会管理技术债与抽象边界的工程师。难在流程与证据，而非题目刁钻。Pass³大幅下滑暴露策略不稳定；Q&A里高分依赖密集的实际运行与证据链；重构一放大改动就漏改调用点，反映跨文件一致性与全局约束的短板。类似地，在强调信息缺口与主动求证的HIL‑BENCH上顶模同样失足，说明“会问、会证伪、会收敛”的工程化思维仍未学到位。考砸，更多是训练目标与真实工程错位。要提分，不是降难度，而是改赛道：让代理默认先跑程序再下结论，用变异覆盖、依赖/调用图传播和一致性检查做训练信号，把rubric内化为生成约束而非事后打分，并用更强脚手架与工具检索减少“靠运气”。当奖励函数对齐工程流程，即便还是这张卷子，分数也会自然上来。

AI当“码农”，谁来当“架构师”？

短期答案很清晰：仍然是人类资深工程师/Tech Lead当“架构师”。理由并不玄学——架构首先是消解不确定性与做权衡，而现有模型在这些环节掉链子：跨文件一致性与边界覆盖薄弱，遇到信息缺口不会主动澄清（HIL-BENCH完成率骤降即证），综合评测也停留在40–60分区间，离“能托付全局设计”还差一大截。更务实的路径是“人类架构师 + AI 架构助手”的混编团队：让强模型去跑应用、做运行时探查、草拟技术方案与ADR/测试宪章，人来拍板取舍；把约束与合规写成policy-as-code进CI/CD，用安全/性能/可维护性多智能体并行评审；重构与依赖治理先由AI试跑，人类最终把关接口稳定性与演进路线。这种分工，把AI的执行力变成架构师的放大器。何时AI能独当“架构师”？至少要在SWE Atlas一类评估上把Pass@1拉到70%+、稳定性（Pass³）过60%，并证明能可靠完成跨仓库重构、遗留清理与边界覆盖；同时在不确定任务中学会“先问对问题”。在那之前，AI是高效施工队长，人类仍是总设计师。

新知 - 大圆镜｜AI编程得分暴跌：补丁工离工程师还差三道坎

对抗知识焦虑，从看懂这条开始

App 下载

被忽略的工程师日常：不止修bug那么简单

过去两年，AI写代码的叙事被反复刷新：从OpenHands到SWE-Bench，每一次榜单更新都伴随着“AI替代程序员”的喧嚣。但所有这些评测，都在做同一件事——修bug和加功能。而真实世界里的软件工程，远远不止这两件事。一位工程师的日常，是对着陌生代码库啃一下午文档，是为新功能写能覆盖边界场景的测试，是把十年前的祖传代码拆成可维护的模块，是debug一个只在生产环境出现的诡异报错。这些上游和下游的能力，被所有主流评测集体无视了。 Scale AI推出的SWE Atlas，就是要补上这块盲区。这套评测体系包含三大核心任务：124道代码库问答，考验AI理解陌生系统的能力；90道测试编写，看它能不能像专业测试工程师一样精准覆盖风险；70道代码重构，要求它在不改变功能的前提下优化代码结构。所有题目都来自真实开源项目，由资深工程师手写，每道题平均有10到18条评分细则——不再是简单的“通过/不通过”，而是像代码评审一样，从边界覆盖、代码健康到文档同步逐一打分。

集体翻车的真相：功能对了，工程全错

评测结果让所有人大跌眼镜：前沿模型集体掉档，Pass@1最高仅43.49%，三次全对的比例直接下降30%到50%。更关键的是，AI在“补丁工”的领域表现出色，但在“工程师”的核心能力上，几乎全员不合格。在测试编写任务中，模型能写出看起来能跑的测试套件，通过变异测试的比例普遍超过60%，但一旦用专业评审标准打分，分数立刻被腰斩。原因很简单：它们写的测试只验证“函数应该做什么”，从不考虑“函数不该做什么”，更不会去覆盖那些细微的边界场景。比如为一个金额计算函数写测试，AI会测正常数值的相加，却不会测负数、零值或者超出精度范围的输入——而这些恰恰是生产环境中最容易出问题的地方。重构任务的差距更夸张：如果只看功能是否正常，每个模型的得分都能高达60%到80%，但一旦用评审标准衡量，分数直接砍半。AI能做到表面上的代码整洁，却不会清理旧的函数定义，不会修正反模式，更不会同步更新文档。就像给旧房子刷了层新漆，看起来光鲜亮丽，地基里的裂缝却依然存在。

最能体现差距的是代码库问答任务。得分最高的模型，不是在静态读代码，而是会像人类工程师一样，把代码跑起来，发请求，看运行时日志，通过动态分析理解系统。而表现差的模型，只会对着静态代码瞎猜，甚至编造不存在的函数和逻辑。

新标尺下的行业转向：从“能写”到“会工程”

SWE Atlas的出现，给整个AI编程行业重新校准了标尺。过去我们只关心AI能不能写出能跑的代码，现在我们终于开始关注，AI能不能写出“好”的代码——可维护、可扩展、符合工程规范的代码。第三方评测机构Artificial Analysis已经把SWE Atlas纳入了Coding Agent Index，作为衡量AI编程能力的三大核心评测之一。即便是当前榜首的Cursor CLI + Claude Opus 4.7组合，综合得分也仅有61分，整个榜单的顶尖系统都聚集在40到60分区间，无一突破70分。这意味着，AI离真正接管工程师的工作，还有很长的路要走。但这并非坏消息。SWE Atlas的出现，让行业终于从“AI替代程序员”的虚幻叙事中清醒过来，开始聚焦真正有价值的方向：如何让AI理解复杂系统，如何让AI写出高质量的测试，如何让AI参与长期的代码维护。这些能力的提升，才是AI编程真正的未来——不是替代工程师，而是成为工程师的可靠伙伴。

当我们谈论AI替代程序员时，我们其实混淆了“写代码”和“软件工程”的边界。写代码只是工具，软件工程是构建、维护和演化系统的艺术。AI可以成为优秀的工具使用者，但要掌握这门艺术，它还需要学会理解系统的上下文，学会为未来的维护负责，学会像工程师一样思考。 补丁工修当下，工程师顾长远。这不仅是AI需要跨越的三道坎，也是整个行业需要重新审视的核心命题。毕竟，好的软件不是写出来的，是维护出来的——而这，恰恰是AI目前最欠缺的能力。

被忽略的工程师日常：不止修bug那么简单

集体翻车的真相：功能对了，工程全错

新标尺下的行业转向：从“能写”到“会工程”

评论