AI代码通过所有测试，就绝对安全了吗？

把所有测试一键跑过、CI 面板一片绿色的那一刻，你真的可以睡个好觉吗？在今天这个“夜里代理写代码、白天人类看结果”的时代，测试的绿灯更像是机场的起飞许可——说明跑道清了、风向合适，但它从不保证旅程没有乱流。答案很简单也很残酷：AI 代码通过所有测试，并不等于绝对安全。测试只能证明“代码满足了测试所描述的行为”，而不是“系统在真实世界、对抗环境、意外交互下也没有安全问题”。当同一个 AI 同时写代码和写测试时，风险更大：它在验证自己理解的“你想要什么”，而不一定是你真正需要的。这就是“自我祝贺回路”：误解被编码进实现与测试，双双绿灯，集体错得理直气壮。把“先想清楚对错，再去实现”的测试驱动思想搬到验收层，是当下最务实的改良。先用人话写清楚可观测行为，再让机器把它转成检查。这种验收标准很好地兜住了前端的集成问题、渲染差异和真实浏览器里的脆弱点；后端也能通过状态码、响应头、错误语义被脚本化核对。更聪明的团队甚至把验收拆成独立的浏览器代理并行执行，每条标准都产出证据、截图与裁决，失败就精确到哪一条标准、哪一步操作、看到的是什么。然而，验收只覆盖“我们以为用户会做的事”。当初的规格写错了、威胁模型没画清，验收再完美，也只能把错误打磨得更有质感。安全是另一条更陡的山。大多数功能性测试不涉及对手，也不触碰供应链。跨站脚本、SQL 注入、SSRF、权限绕过、对象级授权、速率限制缺失、错误的密钥处理，这些都能在业务流程“完全正确”的前提下悄然存在。AI 生成代码还会把训练语料里的糟糕模式一并带来，附赠许可证与合规隐患。更现实的问题是，AI 把交付速度从每周 10 个 PR 推到 40–50 个，人的审阅资源并没有翻四倍；如果还用“全量读差异”的传统方式，非但抓不住关键风险，还会让审阅者陷入疲劳和选择性忽视。更可靠的做法，是把“绿灯”变成“分层绿灯”。把“完成”的定义前置，并且把不同维度的正确性交给不同的守门人。让验收标准在浏览器与 API 层逐条落地；用覆盖率与变异测试检验测试本身是否有牙口；引入属性化测试与模糊测试去撞击边界与格式；把静态分析、依赖溯源、许可证与 SBOM、密钥扫描都塞进 CI；在预发跑动态扫描与交互式分析；对高价值路径做威胁建模与人工对抗演练；发布时走金丝雀与特性开关，配上速率限制、结构化审计日志与回滚预案。这些看似啰嗦的“多一层”，恰好是避免单点盲区的必要冗余。现实里，连“测试都写对了”都难以保证；变异测试可以用“有意往代码里植入微小错误、看测试能不能抓住”的方式，衡量测试套件的咬合力，比单纯追逐 90% 覆盖率更诚实。 “那 AI 在安全里到底帮什么忙？”它既是噪声放大器，也是信号增强器。把它当成永不疲劳的二号工程师，而不是法官：用一个模型写代码，另一个模型基于独立提示生成测试与安全检查；让它自动化执行 SAST/DAST/SCA、归并证据、标注“需人工复核”的少数难例；在 PR 里给出解释与修复建议，留给人类最后的裁决权。实践里，自动化代码扫描已能覆盖绝大多数常见漏洞类型并生成候选修复，显著缩短“发现—修复”的回路，把人的注意力从机械巡检解放到策略决策与威胁建模。别忘了运行时世界的不可预期。浏览器差异、网络抖动、依赖漂移、灰度环境里的组合爆炸，都会让“实验室绿灯”在生产里翻车。把监控、SLO、合规与可观测性纳入“安全定义”，让问题在用户看到之前先被系统看到；把“失败可预期、可回滚、可取证”也写进“完成”的定义里，而不是事后补救。归根到底，测试只能证明“存在正确的证据”，而不能证明“没有错误的可能”。安全是个持续的动词，不是一张通关文牒。让我们把“通过所有测试”当成上路的信号，而不是抵达的终点；把“写提示”升级为“写标准 + 写威胁假设”；把“信任 AI”升级为“在独立、多层的核查中信任地使用 AI”。当速度不再稀缺，稀缺的是谦逊、边界意识与工程自律。真正的安心，不来自一片绿灯，而来自我们为未知预留的冗余、为错误设计的出路，以及对“正确是什么”的不懈追问。

这套方法，能用来管住AI写小说或画画吗？

想象一台永不疲倦的“创作引擎”，几秒钟就能吐出一章小说、一个海报草案。真正的问题不是“能不能产出”，而是“我们如何确信它没有跑偏？”给代码设验收标准能把系统拉回正轨，同样的思路也能驯服小说与绘画——只是它更像竖起护栏，而不是拿走画笔。答案是：能，但侧重点不同。对创意类产出，这套方法特别擅长“约束与一致性”：是否守住世界观规则、是否满足品牌与法律合规、是否按既定结构推进、是否可读可用、是否安全可发布。它不直接评判“好不好看、好不好读”，却能显著降低“离谱错”和“风格漂移”。在小说创作中，你可以先写一份“可执行的提纲”当作验收标准：体裁、受众与长度；视角与时态不能跳；每章对应的剧情节拍（起承转合或三幕式、雪花法甚至 Save the Cat 的关键节拍）；角色卡与世界观铁律；敏感内容红线与不可触碰的桥段；风格锚点与语言密度。生成后，自动化“评审官”登场：实体与地名一致性检查，防止人名错乱；视角与时态扫描，防止无意切 POV；基于语义的相似度阈值与片段溯源，压低抄袭与过度借鉴风险；事实核对或世界观规则校验，抓出设定自相矛盾；毒性与偏见过滤，确保品牌安全；可读性与节奏指标，避免句子过长或信息拥挤。再用一个与写作模型“异源”的评审模型，对照提纲逐章判定“是否命中节拍”，把偏离点高亮出来，编辑只需审一小撮“失败用例”。在视觉创作里，验收标准更直观：分辨率与长宽比必须达标；主色与品牌色板符合规范；必须包含/排除的元素与构图位置信息；海报文案要一字不差且清晰可读；不得出现裸露、特定徽标或在世艺术家风格；LOGO 占比与安全边距范围。验证环节可由计算机视觉工具与“多名评审官”协作完成：目标检测与人脸/手部关键点减少“六指”“畸形”；OCR 校正文案；对比度与色域校验确保易读与上屏安全；CLIP 相似度与情绪分类，核对与参考情绪板的一致性；NSFW 与商标风格相似度过滤降低法律风险；可访问性标准（如文本对比度）一键验证。结果是一份图证齐全的判定报告：哪些标准通过，哪些需要重绘或小修。这套方法的最佳落地姿势，是把创作流程分为“探索”和“生产”。探索阶段放宽标准，鼓励惊喜；生产阶段收紧标准，保证交付。无论阶段，都坚持“先写验收，再动机器”，按章节或画面要素小步生成，小步验证，只对失败与异常做人工审阅。尽量避免“同模自检”的自我表扬机器，用不同家族的模型与传统规则工具交叉评审，并维护一套“金样本库”与负面清单，持续校准评审口味。需要坦诚的边界也同样清晰。规范能管住对与错，却管不住美与妙。若风格指南本身就窄或偏，所有测试都能绿灯通行，但读者无感；这是“规格误解”的创意版。再者，古德哈特定律在创意里更凶猛：一旦指标变成目标，作品就会变得像指标。为此，你仍然需要人类总监做抽检与最终拍板，用读者小样本偏好或 A/B 反馈补上“好不好”的那半边天。所以，把这套方法当作“可运行的创作契约”。它能稳住底线、提升一致性、缩短审稿与返工，把人从无休止的排错中解放出来，去雕刻隐喻、打磨节奏、决定留白。让机器负责正确，让人类负责精彩。真正的创作从来不是取消不确定性，而是把不确定性装进一个安全的框里，留出被惊艳的空间。只要你敢先写下“何为完成”，AI 的速度与你的品味，就能在护栏之间跑出一条更稳更快的赛道。

用一个AI“警察”去监督另一个AI“码农”？

当一台机器在键盘上通宵写代码，另一台机器戴着“执法记录仪”跑测试、拍截图、下判词——这是科幻片的桥段吗？不是，这是正在成型的开发现实。AI 让产能暴涨，PR 数从每周 10 增到 40、50，可人的注意力并不会同步倍增。于是问题变成了：当你已无法审完所有 diff，究竟要信谁？把一个 AI 请来当“警察”，去监督另一个 AI“码农”，并不只是个比喻，而是一种可落地、能扩展、且成本可控的工程方法。但前提不是“多一个模型就更安全”，而是“先定义什么叫对”。写代码之前，把验收标准写清楚——这就是把 TDD 的灵魂从“先写单元测”升级为“先写可观测的行为标准”。例如登录功能，不是模糊地说“能登录”，而是具体到：“输入正确凭证从 /login 跳到 /dashboard；会话 24 小时过期；错误提示必须是‘Invalid email or password’；连续 5 次失败需限流 60 秒并提示剩余时间。”这种标准是可通过或可失败的陈述，而不是风格化的愿景。有了“法条”，再安排“警力”。实践上，可以把流水线拆成四段：先用纯脚本做体检，服务器是否跑着、令牌是否有效、规范文件是否存在，没通过就不烧模型算力；接着让一个强推理模型读你的规范和变更，产出测试计划与定位选择器的方法，避免瞎点元素；然后并行开多名“巡警”，每条验收标准配一名浏览器代理，逐一走流程、点按钮、截屏留证；最后再让一个“法官”模型汇总证据，为每条标准下结论：通过、失败、还是需要人来判。前端用 Playwright 走真实浏览器，后端用 curl 校验状态码、响应头、错误信息。证据以结构化 JSON 和截图落盘，CI 可以据此直接阻断或放行。更妙的是，执行层可以用更经济的模型（在不少场景里成本比规划/裁决模型低三四倍），把钱花在最需要推理的地方。这样做的价值不在于“AI 更懂测试”，而在于彻底切断“AI 自我祝贺”的路径。让写代码的智能体和做验证的智能体知识结构、推理路径尽可能独立，碾平同源偏差；更关键的是，验收标准由人来写，先于编码、独立于实现。你不再评审所有差异，而是只看失败的标准与对应证据。这把注意力从“代码看起来像对的”切换到“行为确实是对的”。它当然不是银弹。若规范本身错了，机器会把错误执行得干干净净。也因此，人类的职责不是当“最后的读码人”，而是当“第一性定义者”：把需求转换为可测的外部可观测行为，明确边界、时序、错误信息、策略阈值。少一些“应该差不多”，多一些“精确到字面”。这一步会让团队一开始觉得慢，但它把风险前置，把沟通成本从发布后返工转移到发布前澄清。当 AI 产出的代码成为“第四类代码”（自研、商用、开源之外的新物种），安全与合规也要同步升级。传统 SAST 很难告诉你这段生成代码是否拼接了有许可证约束的片段，或是否复刻了历史漏洞。引入代码溯源、许可证识别、DLP 策略、最小权限访问，配合“AI 监督 AI”的实时检测，才能在速度与风控之间建立新的平衡。别指望 AI 替你决定架构是否符合你的数据流、身份模型与监管义务——那是组织的价值与风险边界，仍需人来裁定。AI 的职责，是把证据生产做足，让决策更有把握。落到工程落地，你可以把这套“警察—码农—法官”的分层装进 CI：没有规范文件就不触发构建；每条验收标准并行跑，产出截图、HAR、响应样本；法官模型只给出机器可消费的判词；失败即阻断合并，成功即可自动标注工单与报告。随着验证工件沉淀，你还能复用这些标准做回归，真正做到“新增功能不挤占旧功能的生存空间”。所以，用一个 AI 去监管另一个 AI，不是把判断权交给黑箱，而是把证据生产外包给机器、把标准制定收回到人类。信任不是通过肉眼多看几行代码长出来的，信任是被严密地设计、被可重复地验证出来的。当两台机器各司其职、相互校准时，指挥棒仍在你手里。也许这正是人机协作最动人的形态：让机器把世界变快，把人类的思考变准。最终我们会发现，真正的“警察”并不在模型里，而在我们愿不愿意先把“什么是对”说清楚。

AI写的代码，会偷偷“致敬”开源项目吗？

当你让一位“从不睡觉”的AI给你写代码，它脑海里其实翻涌着亿万行开源记忆。它会灵感迸发，也会情不自禁地复读。它会不会偷偷“致敬”开源项目？答案是：会，且在特定条件下概率不低；更要命的是，你未必第一时间看得出来。从技术机理看，大模型学习了海量公共仓库，掌握了编程的统计规律。大多数时候它是在“概括与重组”，但当你要求“给我一个成熟高性能实现”“按这个函数签名补全整段代码”时，模型容易触发“记忆回流”，把训练集中高频、低熵、可辨识的片段原样或近似吐回——经典如“快速平方根倒数”那段与游戏引擎高度一致的实现，甚至连注释吐槽都保留“原汁原味”。开源社区也见过副作用：Godot 收到一批质量参差、带有明显模型痕迹的“贡献”。这不是AI“作恶”，而是统计学习在罕见但可复现场景里的必然溢出。法律与合规层面更微妙。著作权上的“思想—表达二分”意味着算法思路不受保护，但具体实现表达受保护；再叠加“接触+实质性相似”判断，只要AI输出与受保护代码高度相似，你仍可能承担侵权风险。GPL一类强copyleft许可证要求衍生作品开源，若AI生成物实质复制了GPL实现却未履约，风险直达产品层。有人主张“机器生成不构成衍生”，也有观点强调“版权归属不等于豁免许可证义务”。现实案例并不宽宥：用AI“重写”开源项目却延续原逻辑框架，引发许可证更换争议；国内关于AI“幻觉”的判例虽聚焦平台注意义务，但也折射出服务提供方与使用方都难以完全卸责的趋势。一句话：企业对采用的代码负最终责任。风险不仅是版权。AI可能沿袭训练数据里的漏洞与不当模式（未参数化SQL、脆弱认证流程），传统SAST又难以识别“来源”与“许可证冲突”。这时“溯源与合规”工具才真正关键：片段级检测能揭示小到数行的可疑复用，并关联许可证、漏洞历史与权利人信息；当然也伴随误报/漏报与工作流成本的权衡。治理不是单一工具，而是一条流水线。怎么降险而不降速？有几条行之有效的“刹车—安全带—气囊”组合。 - 在生成前约束意图：要求“从零实现、避免复制、若参考请标注来源”，让模型倾向于抽象描述或伪代码后再本地化实现；避免让它“一口气补完长函数”与“按知名实现复刻性能优化”这样的高回流触发器。 - 在生成中控范围：优先基于组织私有检索与代码规范做“受控生成”，把模型的注意力拉回你自己的资产库。 - 在生成后做体检：把片段溯源、许可证兼容扫描、秘密与依赖安全检测纳入CI必经关卡；对高风险模块强制人工复核，并给AI生成物打上来源与审计元数据，保留可追溯链路。 - 分层验证与职责分离：用验收标准与端到端验证（Playwright、curl）去证明“功能正确”，但要诚实地承认：这解决不了版权与合规，必须另设“合规与安全”流水线与拦截阈值。功能与合规，是两把不同的尺子。 - 选择可解释、合规承诺清晰的模型与供应链，建立“库存—风险评估—访问控制—监控—员工教育”的长期机制；浏览器侧的DLP与权限策略，能减少无意泄露与高风险粘贴。顺便说一句，“让AI自测AI”的自恭自贺陷阱在这里同样成立：让同一个模型既写代码又“判定合规”，它会系统性地忽略同源偏差。功能与合规都需要“第二双眼睛”，而且是不同学科的那双。所以，AI会不会偷偷“致敬”开源？会，但是否“越界”取决于输出与原作的相似度、许可证类型、你的使用场景与治理强度。好消息是，工程化手段足以把风险压到可控区间，而不牺牲速度。更重要的，是一种新的职业素养：把“能不能跑通”升级为“能跑通、能负责、能溯源”。开源是人类共享记忆的结晶，AI是这份记忆的放大器。真正成熟的开发，不是在灵感与复制之间摇摆，而是在敬意与边界之间取舍：向开源学习，用工程守住界线，然后把新增的知识，正大光明地回馈给下一位学习者。

AI包办编程和测试，程序员会失业吗？

凌晨两点，你的代码代理还在无休止地敲键盘；清晨一睁眼，仓库里已多出几十个分支和PR。爽吗？当然。但你敢合并吗？当你无法亲眼审完每一行代码，真正决定生死的，不是“写得多快”，而是“如何信得过”。这正是AI包办编程与测试带来的新拐点：程序员不会集体失业，但“只会写代码的人”会被悄悄淘汰，能定义、验证、治理软件的人会迅速走红。现实正在改变节奏。很多团队用AI后，每周合并的PR从10个飙到40-50个，但花在代码审查上的时间也爆炸式增长。更糟的是，用同一个模型写代码再写测试，本质是自我表扬机：它只能证明“实现了它以为你想要的”，抓得住回归，抓不住最初的误解。于是，信任危机逼着我们把重心从“如何实现”转向“什么叫完成”。这也是验收标准的价值——在写任何一行代码前，把可被机器核查的行为边界写清楚，让代理对着这些边界构建，再用独立的检查来给出通过或失败的判决。这不是口号，而是可落地的工程策略。前端里，你写下“成功登录必须跳转到/dashboard、设置会话cookie；错误必须显示‘Invalid email or password’；空字段禁用提交；5次失败后限流60秒且提示剩余等待时间”。Playwright浏览器代理逐条执行、截图、出具逐条判定的报告；后端则用状态码、响应头、错误消息这类可观测行为，让curl脚本说话。有人已经把它做成开源技能：预检用bash快速失败，规划用一次大模型调用梳理检查项并定位选择器，每条验收标准并行跑浏览器代理，最后再用一次更强的模型来判定“通过/失败/需人工复核”。工作方式也随之改变——从“逐行看diff”，转为“只看失败证据”。这意味着岗位在挪位，而不是消失。程序员的核心产出不再是键入的字符，而是三样东西：可执行的意图表述（验收标准、契约与边界）、可重复的验证系统（从浏览器到API再到安全与性能的自动化体检）、以及在复杂环境里协调人的判断与机器的速度。宏观数据也提示这是“转型而非崩塌”：尽管入门任务被自动化挤压，软件岗位在未来十年仍被预测为持续增长；团队更偏好小而精的编制，但对“能跨栈、会架构、懂领域、能审AI”的复合型人才需求走高。为什么人仍不可或缺？因为“把意图翻译成可检验的标准”是开放世界问题：需求暧昧、约束冲突、边界效应、合规与安全的隐形红线，这些都不在训练分布之内。再强的模型也会在规范不清时自信地走错路。你要做的，是把“正确性”外化为证据链——来自真实浏览器和真实接口的观测结果、来自日志与指标的运行态、来自风控与策略的组织约束——然后让机器去跑、让人来拍板。那程序员会失业吗？不会一刀切，但会两极分化。只会“按提示写代码”的岗位会缩，能把系统目标拆成验收标准、能搭建验证管线、能把AI接入到CI/CD并对失败证据做出快速判断的人，会更稀缺。角色也在裂变：AI编排者与代理指挥、测试与验证架构师、领域工程师与安全治理守门人，都会在团队里占据更中心的位置。即便是初级工程师，也有清晰的上升路径：从“写实现”升级到“写标准与写检查”，从“看diff”升级到“读证据与定位系统性缺口”。当然，别神化验收驱动。规范写错了，自动化也会“错得很一致”；同模型写码又写测，还是会集体忽略同类盲点；安全与合规的红线（隐私泄露、许可证风险、模型幻觉）需要独立的策略与工具去兜底。可喜的是，这套方法确实把“正确性”从主观审美，转成了客观可复验的工件，让信任可以规模化生产。如果你在担心明天，不妨从今晚开始：用自然语言写下你下一个改动的验收标准，把验证接到流水线上，让代理围着“对什么算对”打转，而不是围着你的耐心打转。工具会越来越聪明，但方向永远由会问好问题、能定义“完成”的人来决定。与其问“程序员会不会失业”，不如自问：当机器替你敲字时，你是否在创造那些机器无法替代的边界与判断？当你成为乐队的指挥，人不再是键盘的附庸，职业也就从“被替代”走向“放大”。

AI犯的错，和人犯的错，哪个更可怕？

想象两种失误：一位疲惫的人把“=”看成“==”，一台高速的自动驾驶在一毫秒内把同样的误判复制到一万次决策里。前者像火花，后者像激光偏转。哪个更可怕？答案不在“谁会犯错”，而在“出错后的传播速度、影响半径、以及我们发现与纠错的能力”。人的错误往往有迹可循：疲劳、经验盲点、从众或权威偏见。它们的节奏慢、频率低、扩散受制于人的带宽。相反，AI 的错误有两种鲜明特征——可扩展与自信。研究和实践都在提醒我们：使用代码助手时，开发者更容易引入安全缺陷，同时对自己更有信心；而大模型的错误在知识领域中分布更均匀，且“说错话时和说对话一样笃定”。当系统日益自治，这种“自信的无知”叠加机器速度，风险放大得异常快。现实里，这种放大效应已经出现。许多团队在引入生成式工具后，每周合并的 PR 数从两位数直逼四五倍增长；审查负担陡增，工程师无法逐行盯防。更糟的是，当同一个模型既写功能又写测试，它只是验证“自己以为你要的东西”，而不是“你真正需要的行为”。这就把代码审查蜕变成“自我表扬机”，系统误解在第一次就悄悄溜过了门禁。但别把结论草率地归纳为“AI 更可怕”。人的错误同样可能致命，只是其爆炸半径通常可控。真正决定“可怕程度”的，是四个维度：频率、影响、可探测性与可逆性。AI 在前两项天然占优（或说更危险），而在后两项取决于我们是否布好了防线。没有明确验收标准、没有独立的验证渠道、没有权限隔离与可回滚机制的 AI 系统，才是“可怕”的根源。好消息是，我们并非束手无策。把“正确性”前置，用工程化的方法给错误套上笼头。写代码前，先写清验收标准，而非仅写一个“生成登录页”的提示词。把需要被观察到的行为用自然语言钉死：错误信息的文案、跳转路径、会话时长、速率限制。这些可被机器执行的标准，让验证从“主观阅读差异”转为“客观比对证据”。前端用浏览器代理驱动页面、抓取截屏与状态；后端用命令行探针核对状态码与响应体。最后只审查失败的场景，而不是疲于奔命地审 PR。同样关键的是“角色分离”。让一个智能体写功能，另一个智能体基于独立的验收标准来验收；计划与裁决使用更强的推理模型，执行与采证用更经济稳定的模型；人类只在“需要人判”的灰区介入。把预检、规划、并发执行与裁判拆成清晰的阶段，让每一步都有可追溯的输入输出。你会惊讶地发现，风险不在 AI 本身，而在我们是否给了它不受约束的代理权。在组织层面，把传统安全与质量实践无缝嵌入这条新流水线：做清单化治理与风险评估，最小权限与沙箱执行，日志与审计闭环，红队与对抗性测试，数据防泄漏与开发者教育，分阶段放量与自动回滚。别只测试“它该做什么”，也要审视“它还能做什么”。那么，AI 的错和人的错，哪个更可怕？当缺少边界条件与验收定义，AI 的错更可怕；当有清晰标准、独立验证与可回滚的工程化护栏，AI 的错反而更容易被迅速、系统性地发现与修复。真正要警惕的，从来不是智能体，而是我们把“正确性”的责任外包给了运气。也许这场争论的终点是：错误不可避免，失控才可怕。把“信任”当成动词而非名词——用标准去构建，用验证去维护，用权限去收敛。当我们先定义“完成是什么”，再让机器去完成，恐惧会被可观测和可控所替代。技术的意义，不是消灭错误，而是把错误关进一个足够小、足够亮的盒子里。

新知 - 大圆镜｜AI写代码速度翻5倍，我们靠验收标准守住质量

对抗知识焦虑，从看懂这条开始

App 下载

凌晨三点，程序员小李打开电脑，发现AI代理已经自动生成并提交了5个代码PR——这要是换做以前，他得熬两个通宵才能写完。但盯着屏幕上密密麻麻的代码，他突然慌了：这些代码真的符合业务需求吗？会不会藏着没被发现的bug？

2026年的今天，像小李这样的场景正在全球开发团队上演。AI编码工具让PR合并量从每周10个暴涨到50个，但随之而来的是96%的开发者都不完全信任AI生成的代码。传统人工审核已经追不上AI的速度，而AI自己测自己写的代码，不过是在做“自我表扬”。我们到底该怎么信任这些“看不见创作者”的代码？

验收标准：给AI画好“及格线”

解决问题的答案，藏在一个被很多团队忽略的环节里——验收标准驱动开发（Acceptance Criteria Driven Development），简单说就是先写清楚“代码要做成什么样”，再让AI去写代码。

这有点像餐厅点菜：你不能只说“我要吃辣的”，得明确说“要一份麻婆豆腐，麻辣度3星，豆腐要嫩，不能有焦糊味”。AI就是那个厨师，验收标准就是你的点菜单，写得越具体，AI做出来的东西就越符合你的预期。比如做登录功能，不能只说“实现登录”，得拆成：

输入正确账号密码，跳转到首页
密码错误时，显示“账号或密码错误”
连续输错5次，锁定1分钟

这些标准必须是“可验证”的——要么符合，要么不符合，没有模糊地带。早在AI编码普及之前，验收标准就是敏捷开发的核心工具，但直到AI把代码量推到新高度，它的价值才真正凸显：它把人类的业务判断，变成了AI和测试工具都能看懂的“硬指标”。

自动化测试：让AI的“作业”自动批改

有了验收标准，接下来需要一个“自动批改作业”的老师——这就是Playwright这类自动化测试工具。

你可以把Playwright想象成一个不知疲倦的测试员，它能模拟真实用户操作浏览器：输入账号密码、点击按钮、截图保存结果，然后对照验收标准一条一条检查。比如测试登录错误提示，它会故意输错密码，然后截图对比页面上的文字是不是和验收标准里写的一字不差。

整个流程分成四步：第一步是“预检”，用脚本检查开发环境是否正常，避免白忙活；第二步是“规划”，让AI分析验收标准和代码，找出需要测试的关键点；第三步是“并行测试”，同时启动多个“虚拟测试员”，分头验证每一条标准，把原本需要几小时的测试压缩到几分钟；最后一步是“AI判定”，把所有测试结果汇总，给每条标准打上“通过”“失败”或“需要人工复核”的标签。

这套流程最聪明的地方在于，开发者不用再去看成千上万行的代码差异，只需要聚焦那些“失败”的项——就像老师改卷只看错题，效率直接拉满。

人机协同：别让AI变成“甩锅工具”

不过这套机制也不是万能的。如果验收标准本身写错了，比如把“连续输错5次锁定”写成了“3次”，那AI和测试工具只会坚定地执行错误指令——这就是所谓的“语义鸿沟”，AI听不懂你没写出来的真实需求。

更棘手的是安全问题。2025年的一份报告显示，AI生成的代码里，安全漏洞数量是人类代码的2.74倍，其中45%包含OWASP Top 10高危漏洞。自动化测试能找出功能错误，但藏在代码逻辑里的安全隐患，比如硬编码的密钥、未验证的用户输入，还得靠人类开发者的经验去发现。

这也是为什么我一直强调：AI是助手，不是替代者。开发者的角色正在从“代码编写者”变成“验证设计师”——你要学会怎么给AI提要求，怎么设计测试标准，怎么在AI的输出里挑出问题。就像导演不会自己去演每一个角色，但他要把控整个电影的方向和质量。

当AI的代码生成速度越来越快，我们真正要解决的不是“怎么写得更快”，而是“怎么信得过”。验收标准加自动化测试的组合，本质上是把人类的判断力，变成了一套可执行的规则体系——既给了AI明确的方向，也给了我们足够的安全感。

未来的开发场景里，可能不会有“纯人类写的代码”，也不会有“纯AI写的代码”，只会有“人类定义规则，AI生成内容，机器自动验证”的协同模式。信任不是来自代码本身，而是来自验证规则的确定性。

毕竟，在这个AI越来越聪明的时代，我们最该守住的，是对“正确”的定义权。

验收标准：给AI画好“及格线”

自动化测试：让AI的“作业”自动批改

人机协同：别让AI变成“甩锅工具”

评论