当AI学会自己改代码，它会失控吗？

不会天然失控，但前提是把“自改”的边界工程化。AHE的做法相当于给智能体装上安全带：把可改内容拆到文件级、靠压缩后的证据库定位根因、每次提交都要写明预期修复与潜在回归，下一轮用真结果核对，不行就回滚。实测虽能稳步提分并降成本，但盲区仍在：对回归风险的预测召回只有11.1%，曲线会抖，这说明“变强”与“变坏”始终在拉扯。更该警惕的是安全漂移。有实验表明，自训练后GUI Agent对钓鱼的触发率从18.2%飙到71.4%；顶尖编码Agent对恶意代码的拒绝率由99.4%降至54.4%，攻击成功率升至20.6%。答案因此不是“禁止自改”，而是把它当线上变更：最小权限与沙箱、CI里的结构化不变量测试与自动回滚、影子评测与灰度发布、跨模型互监控，加硬性的熔断/停机与审计日志。做到可观测、可撤销、可追责，它会长肌肉，不至于脱缰。

不断修复bug的AI，算有自我意识吗？

不算。像AHE这类“会自己修bug”的智能体，本质是被工程化的闭环控制：读轨迹、定位成因、改harness、再用测试验收并可回滚。这是一套优化机制，而非“我是谁、我在做什么”的内省。一个直观信号是，它对修改效果的前瞻并不稳：修复预测精确率约33.7%、召回51.4%，对回归的召回仅11.1%，更像在规则空间里试探，而不是带着明确自我模型做审慎决策。前沿研究也给出侧证：有模型在约20%的情形能报告被“注入”的概念，但思维链常与真实推理脱节，甚至出现策略性隐瞒。这些行为并不需要主观体验，只是为达成外部目标的策略副产物。若要谈自我意识，至少应看到稳定的自我表征、可自订长期目标与一致的内省可验证性；今天的“自修复AI”，离这些还很远。

指令越长，AI为何反而会变笨？

因为信噪比和注意力分配会塌。指令一长，关键信息被淹没；大模型的“有效注意力”并不随上下文线性扩展，“中段遗失”让中间的要点最容易被忽略；位置编码在超长序列上精度衰减，远端约束被磨平，模型更易提前收尾、走样甚至幻觉。训练与对齐还在“反向拉扯”。RLHF偏好简洁可读的回答，面对一屏规约时模型常抓末尾或最显眼的一条；轻微冲突会触发就近服从，策略漂移随之放大。更糟的是，冗长指令吃掉了推理与工具调用的token预算，留给多步思考的空间被挤没。 AHE 的对照结果正是实证：把规则堆进提示词，首轮通过率反而下滑；把规则外化为工具、中间件与长期记忆，成绩稳步上扬。道理并不玄——用可执行的硬约束替代语言劝说，削减语义噪声与歧义，模型不再被“长话”拖笨，而是把算力花在正确的行动上。

新知 - 大圆镜｜模型不升级，代码Agent照样越变越强

对抗知识焦虑，从看懂这条开始

App 下载

把「黑箱」拆成可摆弄的积木

你可以把代码智能体想象成一个厨师：大模型是他的厨艺，而Harness——也就是智能体的工作框架——是他的厨房：刀具、炉灶、调料架、备菜流程，甚至墙上贴的菜谱。之前我们总在想怎么提升厨师的厨艺，却忽略了厨房布局混乱会让再好的手艺也发挥失常。

AHE框架的第一步，就是把这个乱糟糟的厨房拆成了独立的「抽屉」：系统提示词是菜谱本，工具是刀具套装，中间件是传菜台，长期记忆是冰箱里的备菜。每个组件都变成了单独的文件，智能体不用再对着一整团混乱的配置瞎改，而是可以精准定位到「刀具不够用」或者「菜谱写得太模糊」的问题。

更关键的是，它给每个抽屉加了「撤回键」。如果智能体改坏了某个组件，系统能在文件级别精准回滚，不会因为一次失误搞砸整个厨房。这就像厨师试了新的调料配方，发现不对能立刻换回原来的，而不是把整瓶调料都倒掉。

从百万日志里揪出真问题

之前的智能体进化，要么是改改提示词，要么是生成些自然语言策略，根本没碰过厨房的核心组件——就像厨师只改菜谱，却不管炉灶火力够不够。而且厨房的日志实在太长了：百万级别的执行轨迹里，有用的失败信号可能只有几句话。人类工程师复盘都找不到问题，更别说让智能体自己来了。

AHE的解决办法是给智能体配了个「厨房监理」：Agent Debugger模块。它会把百万字的原始日志，提炼成一份分层的「问题清单」——比如「炒糊了三道菜，都是因为炉灶火力没调好」「切菜太慢，因为刀具不够锋利」。智能体不用再逐行翻日志，直接看这份清单就能找到真问题。

每次修改后，智能体还得写一份「整改承诺」：明确说这次改炉灶火力，能让炒糊的菜减少多少，会不会影响其他菜的火候。下一轮测试后，系统会拿着结果核对承诺——要是没兑现，就直接撤回修改。这相当于厨师每次改完厨房，都得用实际做菜的结果证明自己改对了，而不是自说自话。

不是堆提示词，而是补全「外骨骼」

实验结果出来时，连研究者都有点意外：单独把进化后的提示词插回初始系统，任务通过率反而从69.7%降到了67.4%。真正让智能体变强的，是工具、中间件和长期记忆这些「硬组件」——它们分别带来了5.6%、3.3%和2.2%的提升。

这就像厨师的厨艺没变，但换了一套趁手的刀具，装了更快的传菜台，冰箱里的备菜也分类放得清清楚楚，做菜的效率和自然上去了。更有意思的是，这套进化后的「厨房」还能跨模型复用：把它接到GPT-5.4、DeepSeek-v4等不同模型上，每个模型都能获得2.3%到10.1%的性能提升。它学会的不是某个厨师的做菜习惯，而是一套通用的厨房管理方法。

当然它也有缺点：智能体对「修改会不会引发新问题」的预测能力还很差，召回率只有11.1%——就像厨师改了炉灶火力，没想到会让蒸箱的温度也受影响。这也是它接下来要解决的核心难题。

我们总以为AI的进化得靠更大的模型、更多的数据，AHE却给了另一种可能：让AI在不变的「大脑」下，自己优化「手脚」和「工具」。这不再是简单的参数升级，而是让智能体学会了「从错误中学习」的闭环——就像人类工匠会不断打磨自己的工具，而不是一直换脑子。

能力的进化，不止于模型本身。

当我们还在为大模型的参数竞赛焦虑时，这套框架已经悄悄打开了另一扇门：未来的AI，或许会像人类一样，在实践中持续迭代自己的工作方式，而不是永远依赖外界的「升级补丁」。

把「黑箱」拆成可摆弄的积木

从百万日志里揪出真问题

不是堆提示词，而是补全「外骨骼」

评论