AI专家团队比单个天才更强吗？

结论不在“人数”，而在“编队”。当多智能体被清晰分工、以验证-反思的闭环协同，并配上可调用的技能与可压缩的长期记忆时，“专家团队”确实能胜过“单个天才”。证据很直白：GEMS把一个仅6B的小模型，通过团队式规划-校验-改进，让其在GenEval2上压过强势闭源选手，并在通用与下游任务上取得两位数提升；科研场景里，Intern·Agent也用多角色接力，在化学实验中于12小时拉高产率，远快于传统迭代。但“人多并非一定妙”。系统性研究发现，多智能体常因角色错位、对话丢失、过早终止而只带来微弱改进，且开销显著上升（迭代更长、Token更费）。所以“团队更强”成立的前提是：任务可被可靠拆解、存在可执行的验证指标、需要跨能力协同，且允许多轮优化；若是一次成形、强约束、低延迟的任务，高能力的单体（或单体+工具）反而更干脆。

AI的“经验”能算出灵感吗？

能，但更多是“工程化的灵感”。在GEMS里，“经验”被压缩成可调用的启发式，再配上技能库与验证器。灵感被重写为一次受控搜索：经验给方向，技能给操作，随机性给变体，评估器给打分。系统便能在“指令契合—美学—结构一致性”的多目标空间里跃迁，产出少见组合，比如把水花构成蝴蝶。可这仍是有界探索。仅靠经验，模型易早收敛、风格同质。更像“灵光一现”的做法，是把新颖度显式入模，做分叉式并行探索，引入跨域技能重组、反事实改写与自我反思，并对记忆去偏与周期性遗忘，维持解空间张力，才更常跳出模板。结论是：AI能“算出”实用的新奇，却难以自发改写评价函数与问题本身；它没有动机，只在既定边界内最优化。让它学会改题、引入新经验源，并与人的价值判断共振，才更接近人类意义上的灵感。

AI学会的“审美”是谁教的？

AI的“审美”不是天生悟到的，而是几类“老师”合力教的：海量网络图像及其互动信号（点赞、收藏、成交）给出大众口味；付费标注员与专业评审提供成对偏好与质量标签；研究者据此训练美学评分器和奖励模型，把人类喜好压成可以优化的分数。扩散模型通常先用这些分数筛数据（高分多留、低分少留），再在偏好优化或强化学习阶段朝高分迭代；部署时还会用偏好模型二次打分、循环改图。GEMS里的Aesthetic/Creative等“技能”，其实是团队把光影、配色、构图等要点写成可调用指令，并配验证器闭环执行，让“课堂笔记”变成稳定的画法。所以模型学到的多是“平台化多数审美”，会继承文化与风格偏见，另类趣味易被压低。想改“老师”，就改数据与奖励：用自有风格库微调/LoRA，建立自家偏好打分或专家审核，并把Agent的记忆与技能换成你的审美规范。现实评测也显示，人类专家的一致性与判断力仍明显领先于AI。

新知 - 大圆镜｜6B小模型逆袭大模型，靠的是这三件事

对抗知识焦虑，从看懂这条开始

App 下载

当大家还在比拼模型参数谁更大时，上海人工智能实验室联合南大、港中文、上交大的团队，干了件反常识的事：给一个只有60亿参数的小模型，装上了一套「多智能体协作+分层记忆+技能库」的组合拳，结果居然在多模态生成的部分任务上，超过了顶尖闭源模型Nano Banana 2。

这不是简单的模型升级，而是给AI换了一套「工作方式」——不再让单个模型硬扛所有任务，而是让一群小智能体分工协作，还能像人一样积累经验、调用技能。为什么这套组合拳能让小模型爆发大能量？这背后藏着多模态生成领域的一个关键转向。

多智能体协作：让AI学会「搭班子干活」

你可以把传统的多模态生成模型想象成一个单打独斗的全能选手，不管是理解复杂指令、生成图像，还是检查结果，全靠自己一个人扛，遇到复杂任务很容易顾此失彼。而GEMS框架里的Agent Loop，相当于给AI搭了个结构化的「项目班子」：

有专门做规划的智能体，把用户的复杂指令拆成一个个可执行的小任务；有负责生成的智能体，专注输出图像内容；还有专门的验证智能体，像个严格的质检员，每一轮生成后都对照要求挑毛病；最后是优化智能体，根据反馈调整下一次的生成方向。

这个闭环协作的逻辑很简单：每一轮都先拆解任务，再生成，再验证，再优化，像搭积木一样一步步把结果拼到符合要求。实验数据显示，单是引入这个多智能体闭环，就能让模型性能从31.0直接跳到52.4——相当于从勉强及格，一下子摸到了优秀线。

更关键的是，这套班子是模块化的，缺什么角色就加什么，不用从头训练整个大模型，这也是它能赋能小模型的核心原因。

分层记忆：让AI不再「狗熊掰棒子」

传统模型的「记忆」，就是把所有历史对话和生成记录一股脑堆在一起，像个杂乱无章的抽屉，找东西全靠瞎翻，还经常翻到没用的垃圾信息。GEMS的Agent Memory，相当于给AI装了个分层的文件柜：

最底层是「事实抽屉」，专门存每一轮的提示词、生成的图像、验证反馈这些实打实的信息，确保随时能追溯细节；上层是「经验抽屉」，把每一轮生成时冗长的思考过程，压缩成一句句精炼的经验——比如「生成山脉日出时要强化光影层次」，而不是把整个思考链都存下来。

这种分层压缩有多高效？实验显示，单独加入记忆模块就能让性能再提升9分，还能把生成的平均轮次从3.26降到2.80——相当于少做14%的无用功，既省了计算资源，又让每一轮的优化更有方向。

更重要的是，它解决了大模型的一个老问题：不会从错误里学经验。以前的模型就算生成错了，下一轮还是可能犯同样的错，而有了分层记忆，它能把错误变成经验，下次再遇到类似任务，直接就知道该避开什么坑。

技能库：让AI随时「请专家帮忙」

你有没有过这种经历：让AI生成一张有艺术感的山脉日出图，它却给你一张光影平淡的「写实照片」？不是它没能力，而是它不知道该调用「美学绘画」的技能。GEMS的Agent Skill，就是给AI建了一个可随时调用的「专家库」。

这个技能库像个按需加载的工具箱，里面存着各种任务的详细指令：比如「美学绘画」技能里，写着如何强化光影层次、调整色彩饱和度；「创意绘画」技能里，记录着怎么添加梦幻元素、营造故事感。当AI接到任务时，会先判断需要什么技能，再把对应的指令加载进来——不用把所有技能都塞进模型里，占内存还影响效率。

实验里有个很直观的对比：生成「漂浮的书」，没有技能加持时，只是一本普通的书飘在空中；触发「创意绘画」技能后，书页会飞舞起来，背景还会点缀星空，一下子就有了故事感。虽然技能模块单独只贡献了2.1分的性能提升，但它让AI的能力边界一下子拓宽了——从只会做基础任务，变成了能应对各种专业需求的多面手。

当然，这套框架也不是完美的：技能库的扩展需要人工整理专业指令，多智能体协作也会增加少量的沟通成本，但比起它带来的性能提升，这些代价显然值得。

当整个行业还在为「参数越大性能越好」的路径依赖狂奔时，GEMS的出现像个提醒：AI的未来，可能不是比谁的模型更大，而是比谁的「工作方式」更聪明。

它证明了一件事：给小模型装上协作的脑子、会总结的记忆、可扩展的技能，一样能在复杂任务上打败大模型。这不仅能降低AI的部署成本，让更多资源有限的场景用上高性能模型，更重要的是，它给多模态生成指出了一条新方向——与其堆参数，不如先把AI的「协作能力」「记忆能力」「学习能力」打磨好。

智能的本质，从来不是单个个体的强大，而是群体协作的智慧。 这句话放在AI身上，同样成立。

多智能体协作：让AI学会「搭班子干活」

分层记忆：让AI不再「狗熊掰棒子」

技能库：让AI随时「请专家帮忙」

评论