模仿人类“快慢思考”，AI会做梦吗？

不会。快慢思考只是把“直觉式快答”和“深度推理”变成两种计算路径，本质仍是概率模型在做下一个token的预测，没有睡眠周期、REM活动与主观体验，也就谈不上生物学意义的梦。但工程上，AI“会做梦”是一种比喻——用生成式世界给自己喂新经历：用视频/物理世界模型制造虚拟场景与轨迹，离线重放、wake-sleep式自训练，让策略在不接触真实环境时学会新技能并泛化。例如以神经视频世界合成数十万条“神经轨迹”，只靠每个任务10—13条真实示范也能习得二十余项技能；对陌生动词的成功率可从0%拉到四成左右，并在未见环境拿到可观提升。落地时，“做梦”是利器也是风险源。合成数据若直通生产，会放大幻觉与偏差回路。稳妥做法是：梦境训练全程沙箱隔离，标注数据溯源，定期用真实集回灌校准；用奖励与规则约束生成；在推理侧以自适应快慢思考与温度控制，兼顾准确度与成本。最终，AI能“造梦”助学，却并不“做梦”而觉。

放弃刷榜，腾讯AI想通了什么？

他们意识到“分数不等于产品力”。公开榜单易泄漏、可被过拟合，“高分≠好用”；连最强模型在CL‑BENCH也只有约23.7%解题率，评测与真实任务已脱节。腾讯改写目标函数：大模型进入工程时代，胜负在SLO——延迟、成功率、成本与稳定性，把追求从“刷分”转为“可交付、可维护”。于是把模型直接丢进元宝、QQ浏览器、文档、游戏做Co‑design，用真实数据反哺：Code/WorkBuddy首token时延‑54%、端到端‑47%，成功率99.99%+；较真AI的no‑think用时仅为原链路1/5且效果对齐；长文检索更准。这些才是硬KPI。配套上，重做数据与Infra（SFT深度去重、RL管线与万卡集群稳态化），再以性价比与开源换开发者与生态：Hy3 preview入1.2元/百万tok、出4元/百万tok，Turbo再压到0.015/千与0.05/千。结论很清晰：不盲目扩模，押注Agent与Coding，把“模型力”转化为留存、转化与TCO，这才是长期胜负手。

AI巨头猛补基础，工程师更值钱了？

更值钱，但涨价的是“把系统跑稳、把成本打下去”的工程师。巨头从刷榜转向补数据与基础设施后，岗位需求明显倾斜：分布式训练、MLOps、数据治理、评测与RL、算子/编译器和推理系统优化成了稀缺货。招聘端给出的是实打实的溢价——AI技术人才紧缺指数高位运行，Agentic/系统向岗位薪酬同比涨幅在两位数区间，Retention 与买断在一线公司常态化。价格信号也很直白：能让万卡集群稳定产出、让SFT/RL数据更“干”、让推理成本砍半的团队，拿到最高包。中国市场里，大模型算法工程师平均月薪约5.2万，头部城市90分位破10万；资深Agent架构师可至10–16万/月；海外顶尖总包迈过百万美金门槛。相对地，只会堆Demo、改Prompt的岗位溢价在回落；数据标注若不叠加数据工程与质量策略，薪资天花板依旧有限。结论是：基础工程的价值被重新定价，越贴近算力、数据与效率的能力，溢价越高。

AI竞赛的终点，是比谁更聪明还是更便宜？

在严肃生产力场景里，胜负先看“更聪明”。企业为的是端到端成功率和可闭环深度：弱模型一处错误会把人力复盘成本放大数十倍，远超模型差价。多项新评测显示，主流模型在复杂语境的任务成功率仍不足三成，智能仍是瓶颈。ToB愿为“更少返工、更稳交付”付溢价。而走向大众化时，决定性因素又变成“更便宜”。推理成本正被快速拉低，国内单位Token成本已到海外的十分之一到二十分之一，千Token报价低到千分之一元级，订阅价跌到几十元/月。规模应用的现金流只能靠成本曲线下潜，连头部闭源也难扛住高昂推理账。终点不在单选题，而在单位价值密度：ROI=任务成功率×自动化步长÷总拥有成本。能同时“把智能拉到能闭环”“把TCO压到可规模”的玩家才会赢。这要求上攻复杂推理与上下文学习，下探软硬一体、调度与通信的成本极限，在垂直场景做深做透，形成越用越便宜的飞轮。

AI能背下全网，为何学不会新游戏规则？

因为它擅长“背”，不擅长“当场改规则”。大模型被训练成最大化过去语料的下一个词概率，权重里装的是历史常识与高频套路。遇到一条从未见过的新规，它并不会像人那样更新“内在程序”，而是用旧先验去匹配最像的答案，于是看到了也会用错。现实测下来，即便是最强模型，在只靠给定上下文学新规的任务上，成功率也只到二十几个点。机制上，它的“记忆”是短暂注意力，不是会改写参数的长时记忆；新规与旧习在同一窗口里竞争，频率高的旧模式更“响亮”。再叠加长链条任务的误差积累、缺少可持续的符号化状态与变量绑定，模型就很难把“这局棋只能前进”“本回合禁手变更”之类的临时规则，稳定地贯穿每一步。强化学习与思维链还常被训练成“好看”的解释，而非可验证的执行计划。要让AI学会新游戏规则，本质是让它从“参数化记忆”转向“可依赖的上下文学习”：在推理中引入可检查的中间状态与外部记忆，给到“原则遵循”的奖励信号，配合面向归纳与规则抽象的元学习训练与工具核验环路。否则，它仍会是背题王，而不是能临场换规则的棋手。

AI“返璞归真”，是捷径还是弯路？

短期看，这是捷径。对处在追赶位的团队，回到共识架构+狠抓数据与工程，是把确定性收益榨干的最快路：数据去重与标注一致性带来可量化的对齐提升，稳定的RL与万卡调度直接换来成功率与时延改善，MoE与量化是成熟工程手段而非“炫技”。过去两年里，真正跑通大规模应用的玩家，几乎都靠这套“基础功”拿到可靠性与成本曲线的拐点，而不是指望奇技淫巧突围。但中长期若只停在“返璞”，就会拐成弯路。基础红利很快进入边际递减，同质模型将在价格与算力上内卷；缺少差异化的表征、工具使用与Agent编排、合成数据闭环和强化学习式推理训练，难以在复杂场景突破。正确的姿势是“两条腿走路”：生产线以共识范式保证可交付，前沿线少量高风险押注（更强检索与记忆、世界模型式表征、推理RL），并用真实业务指标而非榜单做北极星。如此，返璞归真既成当下的捷径，也不至于成为明天的弯路。

新知 - 大圆镜｜大模型不用全参数干活，推理反而更强了

对抗知识焦虑，从看懂这条开始

App 下载

让AI像团队一样“分工干活”

你可以把混合专家模型想象成一个没有老板的项目组：总共有上百名“专家”，但接到任务时，只会选出最擅长的2-8个来处理，其他人全程待命。这里的“专家”是一个个独立的小型神经网络，有的专门算数学题，有的擅长解析长文本，有的对代码敏感——它们在训练中会自然形成“专业偏向”，比如有的专家总能精准抓住合同里的风险条款，有的对物理公式的推导格外熟练。

而路由器就是负责派活的“调度员”，它会给每个输入的信息片段打标签，再根据标签把任务分给对应专家。比如输入一段代码，路由器就会激活擅长编程的专家；输入一道几何题，就会调动数学推理专家。和传统大模型每次都要唤醒所有参数不同，混合专家模型每次只激活10%甚至更少的参数，计算成本直接砍到原来的几分之一。

但真实的机制比这个类比更精确：每个“专家”其实是Transformer架构里的前馈网络层，路由器则是一个带可学习参数的小型网络，它会计算每个专家处理当前任务的匹配度，再通过Top-K选择选出最合适的几个，最后把这些专家的输出结果加权合并，得到最终答案。

从“蛮力计算”到“精准思考”

这种分工模式最大的优势，是解决了大模型发展的核心矛盾：既要提升能力，又要控制成本。传统密集模型想提升性能，只能不断堆参数，但参数越大，训练和推理的成本就越高，甚至会出现“参数再多也不涨性能”的瓶颈。而混合专家模型可以在不增加单次计算量的前提下，无限扩充总参数——就像公司可以不断招新专家，但每个项目还是只需要几个人。

更关键的是，科学家发现混合专家模型里藏着一群“认知专家”——它们专门负责AI的“思考过程”。通过统计专家激活和推理标记词的关联度，研究人员可以找出那些在AI“深度思考”时最活跃的专家，只要在推理时稍微强化这些专家的权重，就能让AI的推理准确率提升10%以上，同时还能减少冗余输出，让思考过程更高效。

比如在处理256K长度的长文本时，传统模型可能会因为信息过载而忽略关键细节，混合专家模型则能调动专门处理长上下文的专家，像梳理线头一样把零散信息串联起来。在长文本推理测试中，这种架构的模型已经能超过不少以长上下文为卖点的同类产品。

不是万能药，仍有三道坎要跨

混合专家模型的优势很明显，但它也不是完美的技术方案。第一道坎是“调度员”的能力：如果路由器派活不准，把数学题分给了代码专家，就会直接影响结果质量。而且训练时还得防止“路由崩溃”——也就是所有任务都集中在少数几个专家身上，导致其他专家闲置，模型失去多样性。

第二道坎是训练的稳定性。因为专家是稀疏激活的，每个专家接收到的训练数据都比密集模型少，容易出现过拟合。而且不同专家的训练进度不一致，也会影响整体模型的协同能力。为了平衡这一点，研究人员不得不加入各种辅助损失函数，让专家们的工作量尽量均匀。

第三道坎是部署的复杂度。混合专家模型需要把不同专家分配到不同的GPU上，这就对硬件通信效率提出了极高要求——如果专家之间的信息传递太慢，反而会拖慢推理速度。目前只有少数高端硬件平台能完美适配这种架构的大规模部署。

当我们还在惊叹大模型的参数规模时，混合专家模型已经悄悄把方向从“堆参数”转向了“提效率”。它让我们意识到，AI的智能程度，从来不是由参数多少决定的，而是看能不能把合适的能力用在合适的地方。

未来的大模型，可能会像一个拥有无数隐形专家的超级团队，平时只露出冰山一角，遇到难题时才会调出对应的高手。少激活，多精准，才是AI效率革命的核心。而那些藏在模型里的“认知专家”，或许会成为未来AI拥有真正“思考能力”的关键起点。

让AI像团队一样“分工干活”

从“蛮力计算”到“精准思考”

不是万能药，仍有三道坎要跨

评论