AI“智能套件”能“武装”哪些职业？

最先被“武装”的是软件工程全链路：开发、测试、SRE 与安全。Coding agent 已把“读库—改码—跑测—再修”的长循环跑进生产，单次稳定运行拉到约12小时；同一模型在不同 Harness 下成绩可拉开53个百分点，直接把小团队“抬升”为具备终端、检索与并行子代理的一体化工程部。它还扩大了任务边界：新增“本来不会做”的活占到27%，并已贡献约4%的公开 GitHub 提交。紧随其后的是规则密集、可验证的白领与运营岗位：合同审查与合规、财务风控、客服与销售运营、采购和供应链。这些工种数据和KPI清晰，Agent 能把条款抽取、票据核验、风险打分、路由分单与闭环追踪串成流水线，人只需在高风险节点签字放行。实体侧，制造质检与设备维护最易受益：视觉/传感器结合边缘运行，让质检从抽检跃迁到全检，产线与工装适配从“按周”压到“按小时”。

AI写代码，程序员还写什么？

AI能写实现，程序员要写“题目、评分标准和考场”。把业务意图落成机器可执行的合同：需求规格与接口契约、属性测试与基准用例、数据模型与迁移脚本、验收标准（DoD）与回滚策略，让Agent按规生成并自证正确。更关键的是写Harness与治理：工具适配器与技能库、上下文规划与权限沙箱、检查点与重试、提示模板与记忆策略、评测流水线与可观测性，再配上成本/安全/合规护栏与运行手册。你在搭舞台，AI在台上表演。 AI搞不定的仍由人来写：跨系统架构与取舍、性能与容量计划、边界与异常路径、数据质量与隐私策略，以及把失败轨迹沉淀为合成数据与规则，反哺下一轮。会写这些的人，不是被替代，而是把产能放大一个数量级。

AI编程是在思考还是在“算”？

不是二选一。底层当然在“算”，但要把一个补丁从定位到合入，它必须“思考”——先读懂代码库、拟定计划、执行命令、读日志、基于失败重写方案。最直观的证据是流程而非权重：同一模型仅更换文件编辑接口，某编码基准得分从6.7%飙到68.3%，提升来自决策与反馈回路的优化，而非多算了几次。这种“思考”能不能站住脚，取决于外层的 Harness。实测里，当上下文利用率逼近约40%时，输出质量开始下滑，必须用分层披露、context reset 与 checkpoint 维持“清醒”；长跑靠自检与可观测性，比如端到端回放、带修复指令的 linter、进度与规范文件，让模型在循环中自我修错并收敛。归根结底，AI编程是“被工程化的思考”：算力给出原料，Harness把它炼成可验证、可迭代的推理与行动。

新知 - 大圆镜｜同一AI模型，换套系统性能差53个百分点

对抗知识焦虑，从看懂这条开始

App 下载

什么是Harness？模型的「智能翻译官」

你可以把大语言模型想象成一个精通所有编程语言的天才，但它只会说自己的「模型语言」——一堆抽象的逻辑和代码片段，没法直接对接真实的开发环境。而Harness，就是把天才的语言翻译成开发者能用的「工程语言」的翻译官。

它不是一个简单的工具，而是一套完整的系统：负责帮模型记住整个代码库的上下文，管理它调用终端、读写文件、运行测试的权限，在它出错时把报错信息转化成能理解的反馈，甚至把复杂任务拆成一个个小步骤，让模型一步步完成。比如你让AI「修复这个bug」，模型可能只会生成一段代码，但Harness会指挥它：先定位bug位置，修改代码，运行测试，读报错信息，再回来修正——直到问题真正解决。

Anthropic的工程师把这套逻辑总结成一个公式：Agent = Model + Harness。模型提供智能，Harness让智能落地。

性能分水岭：Harness比模型更重要

2026年的AI编程赛道，已经从「拼模型参数」转向「拼Harness设计」。OpenAI的内部实验显示，同一模型在不同Harness上的性能差异可达6倍；LangChain团队仅仅优化了Harness架构，就把自家代理在Terminal Bench 2.0的排名从第30位拉到了第5位。

Harness的威力，本质上是解决了模型的天生缺陷：它的上下文窗口有限，没法记住整个代码库；它容易「过度自信」，没写完就说任务完成；它不会自己调用工具，只能被动生成代码。而Harness通过五大核心模块补上了这些短板：用状态持久化解决「失忆」问题，用工具调用扩展模型能力边界，用上下文压缩突破窗口限制，用多代理协作拆分复杂任务，用安全隔离防止AI乱改代码。

更关键的是，Harness和模型不是单向配合，而是在互相进化。每次模型升级，Harness就会去掉一些冗余的辅助逻辑；每次Harness发现新的问题，这些数据又会被用来训练模型，让模型下次能自己解决。Anthropic的Claude Code就是这样迭代的：从只能运行几分钟的代码助手，变成能连续工作几小时的工程代理，背后是Harness和模型的17次同步升级。

中国开发者的破局：从追赶到换道

当Claude Code凭借Harness成为行业标杆时，中国开发者却被挡在了门外——Anthropic禁止中国大陆用户访问，甚至限制中国资本控股的企业使用。这道壁垒，反而催生了国内团队的破局机会：DeepSeek在2026年5月启动了Harness团队招聘，目标是用自家的R1模型，搭配自主研发的Harness系统，打造对标Claude Code的代码代理。

DeepSeek的优势在于，它的R1模型本身就是为高效推理设计的混合专家模型，训练成本只有GPT-4的十分之一。但要追上Claude Code，关键不在模型，而在Harness的工程能力：如何让模型稳定处理真实代码库的复杂任务，如何构建从用户反馈到模型训练的闭环，如何设计安全可靠的沙箱环境。这些都是Claude Code花了一年时间才打磨出来的壁垒，也是DeepSeek需要跨越的门槛。

有意思的是，开源社区已经提前行动了：有人基于DeepSeek模型开发了「DeepSeek-TUI」，实现了类似Claude Code的终端功能，但缺乏官方支持的迭代和优化。DeepSeek的官方Harness团队，正是要把这种民间的自发创新，变成能和国际巨头抗衡的产品。

当我们还在争论哪个模型更强大时，AI编程的战场已经悄悄转移了。就像同样的发动机，装在普通轿车上和F1赛车上，性能天差地别——Harness就是那个把模型变成「赛车」的工程师。

未来十年，AI编程的竞争，不再是模型参数的竞赛，而是Harness工程能力的较量。谁能把模型的智能高效地转化为生产力，谁能构建起模型与Harness的协同进化闭环，谁就能掌握下一代软件开发的主动权。

模型决定上限，Harness决定下限。 这句话，正在成为AI编程领域的新共识。

什么是Harness？模型的「智能翻译官」

性能分水岭：Harness比模型更重要

中国开发者的破局：从追赶到换道

评论