对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
NIPS时间检验奖|经验迁移|工具链复用|SkillCraft|AI智能体|人工智能
你有没有见过这样的AI:明明上周刚帮你完成过「搜资料-筛信息-整理分析」的全套调研,这周换个主题,它又要从零开始规划、重新调用工具、把同样的流程完整跑一遍——就像完全忘了自己做过这件事。
2026年的今天,大模型Agent用工具完成复杂任务早已不是新鲜事,但「重复劳动」的问题始终没解决:token越跑越多,成本居高不下,还时不时因为重新规划出岔子。直到一项由NIPS时间检验奖得主参与的研究SkillCraft出现,它想让AI学会一件简单的事:把成功跑通的工具链,变成以后能反复用的「技能」。
你可以把SkillCraft的逻辑,类比成一个职场新人的成长:接到任务先查公司有没有现成的SOP——也就是技能库;没有的话就自己一步步摸索着做;做完之后把成功的步骤整理成一份可复用的SOP;最后找前辈验证一下,放进公司的流程库。

但真实的机制比这更精确。SkillCraft的核心是四步闭环:首先检索技能库匹配可用技能,没有就调用原子工具完成任务,接着将成功的工具链抽象成带参数的可执行技能,最后通过验证器校验后存入技能库。

最关键的变化在于,技能不是简单的答案记忆,也不是静态的提示词片段,而是一个能被程序化调用的高层操作单元。它像一个打包好的工作流,下次遇到同类任务,AI直接调用这个打包文件,不用再重新拆解每一步。
研究者最初想过让技能像俄罗斯套娃一样嵌套——让复杂技能调用已有的简单技能,形成层级更深的技能树。但实验结果给了这个想法一盆冷水:
层级越深,系统越不稳定。
一个底层技能的边界条件错误,会像多米诺骨牌一样向上级联,拖垮整个任务流程。比如一个「筛选信息」的技能漏了某个关键词,后续的「整理分析」「汇总报告」都会跟着出错。

数据给出了明确的方向:在SkillsBench基准测试中,精心构建的浅层技能库,能让Agent的任务成功率提升16.2个百分点;而未经验证的深层技能组合,反而会让成功率下降。现阶段更实用的路线,是优先搭建高质量、可验证的浅层技能库,而非追求复杂的层级嵌套。
SkillCraft最让人意外的发现,是技能的跨模型迁移能力——由强模型创建的技能,在弱模型上依然能保持高成功率。
比如Claude创建的技能,在四个不同的执行模型上成功率都是100%,还能普遍带来超过80%的token节省。而质量较弱的技能,不仅成功率波动大,甚至在某些组合下会出现负收益。
这意味着技能可以成为不同模型之间共享的「数字资产」:不用重复训练,不用重新调试,强模型沉淀的经验,能直接赋能弱模型完成复杂任务。这种跨模型的技能复用,打破了不同AI系统之间的壁垒,为多Agent协同的生态打下了基础。
当然,这一切的前提是技能经过严格验证。研究显示,未经验证的自生成技能,反而会降低Agent的任务表现——就像把错误的经验教给新人,只会让它越走越偏。
我们总说AI要像人一样学习,但之前的AI更像一个每次考试都要临时抱佛脚的学生,考完就忘。SkillCraft让AI第一次有了「积累经验」的可能——它不再是完成任务就清空内存的工具,而是能像人类一样,把成功的经验变成自己的能力,越用越熟练。
经验的价值,从来都不在于完成一次任务,而在于让下一次任务更简单。这不仅是AI效率的提升,更是对人类学习逻辑的一次贴近:真正的智能,从来都不是从零开始的创造,而是站在已有经验上的迭代。