AI技能商店上线，是机遇还是“木马”？

两面性极强，但默认是“机遇优先”。技能商店把零散SOP沉淀成可交易的工作流IP：可复用、可测、可迁移。在多家企业内测中，复用技能常带来50%+成本下降与显著稳定性提升；跨模型加载缓解厂商锁定，领域专家可凭授权/订阅变现。更关键的是，技能被纳入版本控制与CI/CD，经验从“口传”升级为“资产”，可审计、可回滚、可持续改进。可它同时是一条高风险的软件供应链。技能=可执行代码+权限+数据通道，天然是攻击入口；NPM与浏览器扩展的投毒史早已说明审栈失守的代价，Agent技能还叠加系统级权限与提示注入链路，风险再抬一档。要让机遇不变木马，必须先筑“信任层”：强制签名与来源证明、SBOM与依赖锁定；默认拒绝的能力沙箱与最小权限（文件/网络/设备分级）；运行时监控与一键回滚；短期密钥与可撤销授权；独立安全测评与分级上架，企业侧按第三方软件治理，灰度引入、集中审计、随时熔断。

AI学会“抄作业”后，还会自己创新吗？

会。把“抄作业”工程化，其实是把探索—利用的跷跷板压向“利用”，但并不扼杀创造力。前提是把“造新招”写进制度里：给“创造/复用技能”各自配奖励与预算（SAGE），用失败反推新技能与修订（EvoSkill），在执行中自学文档、发明适配器（CASCADE）。这类设计在不牺牲稳定性的同时，持续产出可迁移的新招数，创新从“偶发”变成“可再生”。更大的敌人是路径依赖与层级脆弱，而非复用本身。破解要靠工程纪律：优先浅层、接口确定的技能；按批做对比、投票与自蒸馏，持续重构、淘汰陈旧套路（AutoRefine、ACE、EvolveR）；引入“新颖度/覆盖率/失配告警”等指标，强制尝试陌生API组合；再让强模型当“造技工”、弱模型当“执行工”。当复用变成稳固的脚手架，真正的创新就来自其上的快速重组与高频试错。

AI有了“独门绝技”，会产生“性格”吗？

会，但更准确说是“工程化的性格”。当技能被长期固化（可执行API、子代理）、带着特定的验证阈值和奖励偏置反复复用时，Agent会形成稳定的行为取向：更爱复用还是即兴编写、偏长链规划还是短平快、激进探索还是保守回退，甚至语言与审美也会被某些Skill（如品牌规范、写作SOP）长期塑形。它不是情绪或自我意识，而是可被复现的决策与表达风格。这种“性格”可被设计、放大或削弱。想塑形，就在Skill元数据写入决策原则与语气，用奖励鼓励“造新/复用”的侧重，并把verifier的容错和回退策略调成你要的风格；想度量，就跟踪带/不带技能时的策略KL差、行为熵、工具多样性和回退频率；想避免性格固化，则周期性做技能消融实验、引入对立技能包并保留最小探索率，防止“技能锁定”让Agent变得顽固。

新知 - 大圆镜｜AI终于学会攒经验：做过的事不用再重来

对抗知识焦虑，从看懂这条开始

App 下载

从「用完就忘」到「越用越熟」的四步循环

你可以把SkillCraft的逻辑，类比成一个职场新人的成长：接到任务先查公司有没有现成的SOP——也就是技能库；没有的话就自己一步步摸索着做；做完之后把成功的步骤整理成一份可复用的SOP；最后找前辈验证一下，放进公司的流程库。

但真实的机制比这更精确。SkillCraft的核心是四步闭环：首先检索技能库匹配可用技能，没有就调用原子工具完成任务，接着将成功的工具链抽象成带参数的可执行技能，最后通过验证器校验后存入技能库。

最关键的变化在于，技能不是简单的答案记忆，也不是静态的提示词片段，而是一个能被程序化调用的高层操作单元。它像一个打包好的工作流，下次遇到同类任务，AI直接调用这个打包文件，不用再重新拆解每一步。

不是越复杂越好，浅层技能库更稳

研究者最初想过让技能像俄罗斯套娃一样嵌套——让复杂技能调用已有的简单技能，形成层级更深的技能树。但实验结果给了这个想法一盆冷水：

层级越深，系统越不稳定。

一个底层技能的边界条件错误，会像多米诺骨牌一样向上级联，拖垮整个任务流程。比如一个「筛选信息」的技能漏了某个关键词，后续的「整理分析」「汇总报告」都会跟着出错。

数据给出了明确的方向：在SkillsBench基准测试中，精心构建的浅层技能库，能让Agent的任务成功率提升16.2个百分点；而未经验证的深层技能组合，反而会让成功率下降。现阶段更实用的路线，是优先搭建高质量、可验证的浅层技能库，而非追求复杂的层级嵌套。

跨模型复用：强AI的技能能给弱AI用

SkillCraft最让人意外的发现，是技能的跨模型迁移能力——由强模型创建的技能，在弱模型上依然能保持高成功率。

比如Claude创建的技能，在四个不同的执行模型上成功率都是100%，还能普遍带来超过80%的token节省。而质量较弱的技能，不仅成功率波动大，甚至在某些组合下会出现负收益。

这意味着技能可以成为不同模型之间共享的「数字资产」：不用重复训练，不用重新调试，强模型沉淀的经验，能直接赋能弱模型完成复杂任务。这种跨模型的技能复用，打破了不同AI系统之间的壁垒，为多Agent协同的生态打下了基础。

当然，这一切的前提是技能经过严格验证。研究显示，未经验证的自生成技能，反而会降低Agent的任务表现——就像把错误的经验教给新人，只会让它越走越偏。

我们总说AI要像人一样学习，但之前的AI更像一个每次考试都要临时抱佛脚的学生，考完就忘。SkillCraft让AI第一次有了「积累经验」的可能——它不再是完成任务就清空内存的工具，而是能像人类一样，把成功的经验变成自己的能力，越用越熟练。

经验的价值，从来都不在于完成一次任务，而在于让下一次任务更简单。这不仅是AI效率的提升，更是对人类学习逻辑的一次贴近：真正的智能，从来都不是从零开始的创造，而是站在已有经验上的迭代。

从「用完就忘」到「越用越熟」的四步循环

不是越复杂越好，浅层技能库更稳

跨模型复用：强AI的技能能给弱AI用

评论