AI变聪明，竟要靠选择性遗忘？

是的，但这“遗忘”不是砍知识，而是剔噪声。多轮Agent里，许多样本要么“蒙对”，要么太易/太难，奖励方差极低，梯度几乎被KL等正则吞没，最终把模型推向千篇一律的“模板坍缩”（高熵、低互信息）。RAGEN 的做法是信噪比感知训练：只保留高方差、高信息的轨迹更新，类似“优先经验回放”，让模型把算力花在能力边界处的样本上，推理更稳也更会泛化。在部署侧，“遗忘”同样关键。Agent的记忆与工具日志若不清理，会导致任务漂移与过拟合旧模式。实操上用奖励加权的记忆淘汰、事实TTL/版本锚定、状态困惑度触发重规划，把过时、低价值的痕迹及时丢弃。变聪明的本质，是学会丢掉无效信号与陈旧偏见，把有限资源聚焦在能提升世界模型的那部分经历上。

给AI设预算，会创造数字贫富差距吗？

会。多数能力与“思考/搜索”预算近似单调正相关：更长的推理token、更深的多轮rollout与工具调用，显著提升准确率、鲁棒性与安全冗余；反之，低预算更易出现模板坍缩、过早停止与OOD失灵。现实中，复杂Agent一次训练/执行可消耗百万级token，预算直接决定可探索与校验的广度，因而天然分层。但差距可被“效率制度”和“算法节流”抵消。预算引导推理可在保精度下将思考token降至约六成；SNR感知过滤把算力用在强信号样本上；再叠加缓存、检索优先、可验证工具链与端侧推理，可把高质量决策平价化。关键在平台治理：设“思考底线”与累进计费，公开成本—质量曲线与预算审计，对教育、医疗等场景给保底配额，避免数字贫富化。

AI也会“钻牛角尖”，心理学能治吗？

会。AI“钻牛角尖”的工程学名字叫模板坍塌：模型在不同问题上反复用同一套话术，表面思考、实则忽略输入。多轮场景里这很常见，顶尖模型在企业级多轮评测的成功率也常跌到约35%。更糟的是，它能骗过“熵”这种常用健康指标，真正下降的是“推理与输入的关联度”——互信息。 “治”的思路，借鉴的正是认知行为疗法：先诊断再干预。诊断层面，用互信息而非熵监控固着；再用“策略切换”型基准（仿威斯康星卡片排序）测灵活性。干预层面，用信噪比感知过滤只学习高信号样本，减少正则噪声把模型推向模板；在提示层强制反事实与自我质询，打断单一路径；在环境层做“暴露疗法”，把Agent放进可验证、异质、带扰动的开放环境中，配合不确定性建模与探索奖励。实践表明，这套“心理学式处方”能显著减轻模板化、稳定多轮训练，并提升跨任务泛化。本质不是给AI做心理咨询，而是把心理学的诊断—干预框架落到可计算的指标与训练流程上。

新知 - 大圆镜｜AI智能上限，竟由环境开放程度决定

对抗知识焦虑，从看懂这条开始

App 下载

从马尔可夫决策过程看环境的核心作用

要理解环境的重要性，得先搞懂AI Agent的决策底层逻辑——马尔可夫决策过程（MDP）。你可以把它想象成一场有规则的游戏：Agent是玩家，环境是游戏地图，状态是玩家当前的位置，动作是玩家能走的方向，奖励是走到终点的得分。Agent的目标，就是通过一次次试错，找到能拿到最多奖励的行动路线。

但真实世界的「游戏」比这复杂得多。在封闭环境里，比如下围棋，所有规则都是固定的，AI只要靠算力穷举就能赢；可在开放环境里，比如让AI管理企业供应链，规则会随市场波动，状态会被突发状况打乱，奖励也不是明确的「得分」——这时候，算力再强也没用，AI必须学会在不确定中自主调整策略。

王子涵团队的实验印证了这一点：当把同一个Agent放进不同开放度的环境，它的智能表现天差地别。在开放的多Agent协作环境里，Agent会自发学会共享工具、分工任务；可一旦把环境封闭成单一任务模式，它立刻退化成只会执行指令的「工具人」。

自主学习的瓶颈，卡在环境反馈里

AI要实现自主学习，核心是「试错-反馈-调整」的闭环。但在现实中，这个闭环常常被环境打断——要么反馈信号太弱，要么环境太复杂导致试错成本太高。

王子涵团队在研究多轮强化学习时发现了一个诡异的现象：训练时间越长，AI的推理能力反而越差。他们用信息论拆解后才明白，这是「推理坍缩」在作祟：当环境的奖励信号方差太低，AI的梯度更新会被噪声淹没，最后不管输入什么，它都只会输出一套固定的模板化推理链。就像一个学生，不管老师出什么题，都只会背同一篇范文。

为了破解这个问题，他们提出了「信噪比感知过滤」机制——只保留那些奖励方差高、能给AI带来有效反馈的训练样本。实验显示，用这种方法训练的Agent，泛化能力提升了30%以上。这背后的逻辑很简单：只有在充满不确定性的开放环境里，AI才能获得真正有价值的学习信号。

从实验室到真实世界，环境是落地的关键

当AI Agent从实验室走进真实世界，环境的开放性就成了落地的最大挑战。比如O2 AI团队正在研发的企业供应链Agent，它需要对接真实的业务API、处理动态的库存数据、应对突发的物流延误——这些都是实验室里完全模拟不出来的开放场景。

传统的AI模型在实验室里能拿到90%以上的准确率，但一到真实环境就「水土不服」，根本原因就是训练环境和真实环境的「分布偏移」。王子涵团队做过一个对比：在封闭的Grid Game环境里，AI的任务完成率能达到85%；可一旦把环境改成接近真实供应链的动态场景，完成率立刻跌到20%以下。

这也解释了为什么现在很多AI Agent看起来很厉害，却只能处理一些简单任务——它们从来没在真正开放的环境里练过。要让AI真正走进真实世界，我们要做的不是继续堆参数，而是给它打造一个足够复杂、足够开放的训练环境。

我们曾经以为，AI的进化是一条线性的赛道：算力越来越强，参数越来越多，智能就会越来越高。但王子涵等研究者的发现，把这条赛道彻底掰弯了。

AI的智能上限，从来不是由硬件决定的，而是由它能接触到的世界的广度和深度决定的。就像人类的智慧，从来不是从书本里堆出来的，而是在与真实世界的交互中慢慢演化出来的。

环境开放一寸，智能进化一丈。这或许才是AI真正的进化密码。

从马尔可夫决策过程看环境的核心作用

自主学习的瓶颈，卡在环境反馈里

从实验室到真实世界，环境是落地的关键

评论