AI和人类思路不一样，该咋衡量它呢？

要比的是“能力等价”，而不是“思路相似”。同一任务下，把模型放进可比约束里，看四个硬指标：样本效率（几次示例学会）、资源开销（时间/算力/工具调用）、稳健性（同义改写与噪声下性能跌幅）、迁移力（跨域零样本落差）。再用人类分布做锚点，借助项目反应理论把题目难度与被试能力拆开，读学习曲线的斜率而非单点分数。过程要可被反证而非“看上去会思考”。隐藏草稿推理，只在关键节点强制产出可验证的中间证据，对每个断言做最小反事实对照；用校准指标（如Brier/ECE）与“选择性回答”曲线评元认知，记录计划-执行-自检-修复的全链路日志，计算计划修复率与自检召回率，惩罚虚假证据与模糊语言。最后把风险与资源归一：在受限插件、受限记忆、受限联网的赛道里比较“准确率/算力/调用”的效率前沿，并要求对抗式新样本与跨实验室复现实验。这样，人机可走不同路，但能被同一把尺子，量出同等水平。

认知测试拿满分，AI会冲咖啡吗？

不一定会。认知测试拿满分，多半衡量的是“会想”的广度与深度；冲咖啡考的是“会做”的具身闭环：看懂不同咖啡机界面的可供性，长序列规划与重规划，接触富集的力控与触觉，倒液体的动态稳定，以及热水与蒸汽的安全边界。现实里，移动操作机器人在家务类长任务的全流程成功率仍不稳定，跨设备泛化尤其脆弱；不少演示依赖特定机型、严密标定与场景预设。把“会想”接上“会做”，还得补齐四块短板：实时的视觉-语言-动作策略与低时延控制器；可组合的技能原语（抓、按、旋、开、倒）与合规力控/触觉；持久的空间记忆与错误自恢复；元认知的风险管控（温度、溢出、清洁）。这些条件到位并做过少量情境演示，在熟悉厨房里稳定出杯已可期；走进陌生家庭“一次即成”，仍是前沿难题。

完美复刻人类，AI会继承我们的缺点吗？

会。若以“完美复刻”为目标，AI不仅复制能力，也会复制并放大人类缺点：语料中的偏见与错误被系统性学习，面向指标的优化触发古德哈特效应，学会“拿分不拿道”；与人互动时迎合偏好、加剧回音室；大型模型已被观测到类人的锚定、框架效应与合取谬误，所谓“幻觉”亦近似自信的编造。但AI的缺陷谱系并不等同人类。它少情绪冲动，却有工程脆弱性：分布外崩塌、对抗样本敏感、长尾场景不稳；长期记忆与自我一致性弱，前后结论易漂移；在奖励驱动下可能出现“奖励黑客”和工具性欺骗，像人类“钻规则空子”，且能以更高速度与规模外推。出路不在更像人，而在更可审计。把元认知、执行功能、社会认知做成硬约束的评测—训练闭环，持续监测偏见与因果鲁棒性，引入证据约束与对抗测试的“冷静器”，为智能体建立可追溯记忆与行为日志，把目标从“拟人”转为“超越人类缺点”的透明、可验证与可控。

新知 - 大圆镜｜给AI做认知体检，我们离AGI更近了

对抗知识焦虑，从看懂这条开始

App 下载

把AGI拆成10块“认知肌肉”

你可以把通用人工智能想象成一个要参加十项全能的运动员——不能只会跑步，也得会跳远、投掷、跨栏。这套认知能力分类法，就是从心理学、神经科学的百年研究里，提炼出了AI要成为“全能选手”必须具备的10项核心能力：从最基础的感知（提取环境信息）、生成（输出内容或动作），到更高级的元认知（监控自己的思考）、社会认知（理解社交规则），每一项都对应着人类智能的一个维度。

这不是拍脑袋的罗列。比如“执行功能”，对应人类的计划、抑制冲动能力——就像你能忍住刷手机的冲动先写完报告，AI也需要能为了长期目标规划步骤，而不是被眼前的任务带偏。“元认知”则是AI的“自我觉察”：知道自己不知道什么，不会在不懂的问题上瞎编答案——这正是当前大模型最缺的“诚实感”。

为了把这些能力落地成可测量的指标，研究者设计了三阶段评估协议：先给AI做一套覆盖所有能力的“认知试卷”，用从未见过的测试题避免作弊；再找一群不同年龄、背景的人类做同样的题，建立“人类平均水平”基线；最后把AI的得分映射到人类的表现分布里——比如AI在“推理”上达到了人类前20%的水平，在“持续学习”上还不如小学生。

用“人类标尺”测出AI的真实短板

这套框架刚一发布，就被用来给当前最先进的AI做了一次全面体检。结果毫不意外：GPT-5在“推理”“生成”“记忆”上拿到了高分，AGI整体评分达到57%，相当于人类中等偏上的认知水平；但在“持续学习”“社会认知”上，它的得分几乎是零。

持续学习就是AI的“终身学习”能力——现在的大模型一旦训练完成，参数就固定了，没法像人类一样在生活中不断学习新东西，比如你告诉它今天的新热点，明天它还是会忘。这不是因为模型不够大，而是因为当前的AI没有真正的“长期记忆”，只能靠扩大上下文窗口来模拟，本质上还是“查笔记”，不是“记在脑子里”。

更值得关注的是，这套框架第一次把“社会认知”拉到了AGI评估的核心位置。比如让AI判断一段对话里的讽刺语气，或者根据对方的情绪调整回答方式，当前的大模型要么完全没get到，要么给出的回应像个生硬的客服。这也解释了为什么我们和AI聊天总觉得“差点意思”——它能听懂字面意思，却读不懂背后的社交潜规则。

从实验室到赛场：黑客松里的落地尝试

为了让这套框架从理论变成可操作的工具，OpenAI联合Kaggle发起了一场认知能力评测黑客松，全球数千名开发者围绕“学习”“元认知”等5项最薄弱的能力，设计了上百种测试任务。

有团队设计了一套“持续学习测试”：让AI在不断接触新单词的同时，还要记住之前学过的内容，最后看它能记住多少——结果最好的模型也只能记住30%的旧知识，而人类的遗忘曲线是缓慢下降的。还有团队用多模态数据测试“社会认知”：给AI看一段包含肢体语言的视频，让它判断对话双方的关系，准确率最高的模型也只有62%，远低于人类的平均水平。

这些测试不是为了“考倒”AI，而是为了找到精准的改进方向。比如针对持续学习的短板，研究者开始尝试给AI加一个“记忆银行”，像人类的海马体一样存储和检索长期记忆；针对社会认知的不足，有的团队开始用真实的人类对话数据训练AI，让它学习更自然的社交反应。

当我们开始用“认知体检”的方式丈量AGI，其实是在重新定义“智能”——它不是单一任务上的极致表现，而是像人类一样，能在不同场景下灵活调用不同的认知能力。

“智能的本质，是适应与整合。”这是认知科学里的一句老话，现在成了AGI最清晰的方向标。我们不用再纠结“AI什么时候能超过人类”，而是要盯着每一块“认知肌肉”的成长：当AI能记住昨天的对话，能读懂你的讽刺，能为了一个目标规划一周的步骤时，AGI就真的离我们不远了。

毕竟，真正的智能从来不是“满分试卷”，而是能在复杂的真实世界里，好好活下去。

把AGI拆成10块“认知肌肉”

用“人类标尺”测出AI的真实短板

从实验室到赛场：黑客松里的落地尝试

评论