给AI的“高考”满是漏洞，公平吗？

不完全公平。独立审计指出，原版题库里存在高比例可验证噪声（大量OCR/转写错误、歧义与答案不一致），甚至出现“懂物理却因抄错常量被判错”的情形；还有评测流程上的系统性偏差，如以模型评判模型可带来约30%的评审偏差，且不同模型在推理token与算力预算上不统一，导致成绩可比性被稀释。这些都会把“能力差异”混同为“测量误差”。但它可以被做得更公平。经大规模复核的HLE-Verified已将2500题划分为641道确认无误、1170道修复通过、689道存疑；实务上应仅以已验证子集计分，对存疑题“暂不计分”。同时引入双盲专家裁决与显著性检验，统一计算配额与温度/采样策略，报告置信区间与校准误差；多模态题强制使用原始矢量图/源码以禁用OCR链路；设置拒答加权，鼓励“不会就说不知道”；采用滚动私有集与数据污染审计维持长期有效性。结论是：把HLE当方向盘合理，把带噪声的里程表当真值就不公平。用经验证的数据、透明协议和误差条发布成绩，这场“AI高考”才能既够难、也公正，并真正促进模型能力与安全治理的进步。

AI若通过终极考验，人类价值何在？

如果AI拿下HLE，它证明的是“封闭题”的专家级解题力；人类的稀缺性会迅速转向“出题与立规”。现实数据已给出警示：在临床实验中，当AI判断最准确时，人机合力可提升53–67%；但当AI最具误导性时，人类表现会下降96–120%。由此可见，人类真正的价值在于目标设定与风险校准——何时采信模型、何时质疑、何时追加实验、何时延迟决策。更关键的是集体审议与责任分配。基准会饱和，但社会阈值与伦理红线不会自动生成。多数公众（约80%）愿以规则换取更安全的进展，这些权衡必须由人类来做，并由人类承担后果。研究也发现，高绩效团队的优势并非算法，而是好奇心、韧性与知情敏捷等持久能力。AI负责解题，人类负责定题、定边界、定意义，并设计让技术普惠而可控的制度——这正是不可替代的人类价值。

AI即将“毕业”，下一场考试考什么？

如果把HLE看作“闭卷期末”，下一场考试会是“开卷实战”。不再问孤立题目，而是让模型自己立题、检索、设计方案、用工具与仿真（甚至对接自动化实验）跑完一条链，并提交可复现实证作为判卷标准。评分从pass@1转向time-to-result（从想法到验证用时）、成本与工具调用成功率、长程记忆与持续学习不遗忘、以及在分布外资料上的迁移力；形式化可验证明与端到端工程交付会成为必考。同时，考纲会从“答对没”转向“怎么答”。模型需要展示校准与自知之明：在不确定时能否稳健拒答或降权；评估关注选择性准确率、校准误差、拒答质量与可追溯引用。更难的是因果与反事实推理、对抗鲁棒（提示注入、数据污染、诱导谬误）、以及避免操纵与谄媚的安全边界——过程要可审计、可复盘。为避免再度“刷题内卷”，考试将滚动更新、含私测集与红队攻防，并引入“团队赛”维度：多智能体与人类协作，能否提出新假说、完成复现并产出可用工件。谁能在有限预算内，把“想法→可验证成果”的漏斗跑得更快、更稳、更透明，谁才算真正毕业。

新知 - 大圆镜｜AI刷爆90%传统测试，人类掏出终极考卷

大圆镜

内容由AI生成，思考得你完成

App Store 下载 Android 下载

从“刷分题库”到“终极考卷”的筛选逻辑

你可以把传统AI测试想象成高中模拟卷——题目都是课本里的基础题，刷多了总能考高分。但HLE的诞生，是直接把博士生资格考试的真题搬了过来，而且还加了一道筛选门槛：先让当前最顶尖的AI挨个答题，但凡能被答对的题目，直接从题库里删掉。

初始的7万道征集题，先经过一轮AI“淘汰赛”：GPT-4o、Claude 3.5这些能在传统测试拿满分的模型，只要能答对某道题，这道题就被判定为“难度不足”。剩下的题目再进入两轮人工评审：由拥有硕士以上学历的学科专家逐一验证，确保题目没有歧义、答案唯一，而且绝对不能靠搜索直接找到。最终2500道题被选中，其中41%是数学题，11%是生物医学题，还有14%是需要看图分析的多模态题——比如MIT专家出的那道蜂鸟骨骼题，要说出某块骨骼支撑的肌腱数量，翻遍普通百科都找不到答案。

这个筛选逻辑像极了体育赛事的资格赛：只有连卫冕冠军都闯不过的关卡，才有资格成为新的比赛场地。

考砸的AI，暴露的不只是知识盲区

当GPT-4o在HLE上只拿到2.7%的准确率时，没人觉得意外——真正值得注意的是，AI答错的方式。它会用100%的自信给出错误答案，比如把蜂鸟的肌腱数量答成3，而正确答案是2。这种“迷之自信”不是个别现象，所有顶尖AI在HLE上的置信度校准误差都超过70%，说白了就是“不知道自己不知道”。

这背后是AI的本质缺陷：它靠统计规律和数据记忆答题，而非真正的理解。传统测试的题目大多是训练数据里见过的“熟面孔”，AI能靠模式匹配拿高分；但HLE的题目是专家原创的“新题”，没有现成的统计规律可套，AI就露了原形。比如一道古代语言题，要翻译一段没公开过的巴尔米拉铭文，AI既没见过这段文本，也没有足够的专业知识推理，只能瞎蒙。

更关键的是，HLE的成绩打破了一个幻觉：AI不是“全知全能”的，它的能力边界比我们想象的要窄得多。80%的美国民众支持AI安全监管，本质上是在担心一个“不知道自己不知道”的AI，会在医疗、法律这些关键领域给出致命的错误答案。

终极考卷不是终点，而是新的起点

HLE刚发布时，有人质疑它“脱离实际”——毕竟现实中很少有人需要AI去解博士生的数学题。但很快，这份考卷的价值就显现出来：它成了AI安全研究的标尺。比如CAIS的研究人员发现，在HLE上得分越高的AI，在处理复杂伦理问题时的失误率越低；而得分低的AI，更容易产生“幻觉”和偏见。

现在，HLE已经不是一份静态的考卷，而是一个动态的评估体系。团队会定期更新题目，淘汰那些被AI攻克的难题，加入新的专家原创题——就像游戏里不断升级的BOSS。同时，他们还推出了“HLE-Verified”版本，修正了最初题库里18%-29%的错误，让测试结果更可信。

有意思的是，HLE的存在也倒逼AI开发者改变思路：不再盯着传统测试刷分，而是开始训练AI的“深度理解能力”。比如OpenAI的o1模型，专门针对复杂推理任务训练，在HLE上的得分从最初的8%提升到了15%——这不是靠刷分，而是靠真正的能力提升。

当我们用“终极考卷”去考AI时，其实也是在重新定义“智能”的标准。过去我们以为，能记住知识、答对题目就是智能；但HLE告诉我们，真正的智能是能理解知识、解决未知问题的能力。

考分不是智能，理解才是。

未来的AI评估，不会再是简单的“刷分游戏”，而是一场关于“理解能力”的持久战。HLE不是AI的“终极考试”，而是人类和AI一起探索智能边界的起点——毕竟，我们真正想知道的，从来不是AI能考多少分，而是它到底能帮我们解决什么问题。

从“刷分题库”到“终极考卷”的筛选逻辑

考砸的AI，暴露的不只是知识盲区

终极考卷不是终点，而是新的起点

评论