给AI装上“记忆”，它能从科研学渣变学霸吗？

如果给一台AI一部“爱因斯坦式实验手账”，每一次失败与洞见都能被精准回放、索引、复用，它会不会从科研学渣，跃迁为学霸？这不是玄学，而是当下AI研究在认真回答的问题：把记忆装进智能体，能否把“会回答”变成“会研究”。先说结论：记忆是必要条件，但远远不是充分条件。它像科研里的实验记录本与图书馆目录，能让AI少走弯路、跨任务迁移经验、避免重复犯错，但要跨过“会做研究”的门槛，还需要推理训练、数值稳定性、流程规划与可验证机制的系统配套。为什么说记忆重要？今天的大模型患有“前向失忆症”：当下对话能记，长程探索会忘；会背“柏拉图教过亚里士多德”，却答不出“谁教过亚里士多德”。引入类海马体的“情节记忆”和检索机制后，AI在“逆转诅咒”任务上准确率从接近零跃升到90%–95%，潜在学习能力显著恢复。工程上，MemOS 这类记忆操作系统把文本、激活、参数等记忆统一管理；IBM 的可编辑短期记忆让模型能在不中断服务的情况下持久化要点。更进一步，层次化认知缓存把经验、知识、智慧分层沉淀，支撑跨数十小时的连续科研目标与策略迁移。实证也出现了：面向机器学习工程的自主系统，在长时无人干预的基准上，基于开源模型拿到超过半数奖牌并登顶榜单，显示“长程记忆+任务坚持”能把“忙乱试错”变成“有史可循的探索”。但记忆并不能替你“算对”和“做对”。一份对齐科学家工作流的全流程评测显示，即便是最强闭源模型，总分也只有33.83/100。文献元分析类任务里，步骤对了50%–65%，结论却常在长链路里崩塌，严格匹配仅10%–20%；干实验代码90%能跑，却只有36.64%能在全部单测下严格正确，“能运行≠科学正确”的鸿沟赤裸裸；湿实验方案里，时序、分支与参数选择频繁出错，参数准确率最高也就40.6%；多模态实验推理中，推理链看似顺畅（有效性可达71.3%），答案却只有41.9%正确。更扎心的是创意：有些模型新颖度能到76.08，但可行性只有18.87，灵感没能闭环为可执行蓝图。再加上幻觉的现实——即便最新模型，在人物事实集上仍有三分之一的回答会编造；面向学术的投稿里，半数以上出现虚假参考文献——把“记住错误”写进长记忆，后果不堪设想。所以，“装记忆”要配套什么，AI才可能晋级学霸？关键在于把记忆变成可验证、可演化的认知资产，而不是无脑堆笔记。 - 记忆要有门槛。像大脑NMDA受体的“看门”机制那样，以因果证据、数值鲁棒性和可重复性作为写入条件；版本化与溯源，避免AIGC污染，引用要可追踪。 - 记忆要会用。有效检索不是“翻笔记”，而是会提问、会筛选、会在单个上下文中进行即时学习，再跨文档整合。没有这层元认知，即使库满，推理也会跑偏。 - 推理要被系统训练。渐进式推理训练显示，通过自适应难度与多层次路径，复杂数学正确率可从45%拉到78%，并具备自我纠错与回溯能力——这恰好能把记忆里的“相似案例”转化为“正确范式”。 - 严谨要落在代码与流程上。科学代码需要数值先验与稳定性约束；湿实验需要时序逻辑与分支规划。把单测、仿真与参数检查嵌入行动层，让“写入记忆”的每一步都有可复现实证。 - 决策要有群体智慧。对短视界模型，让它“多想”不如“多票”：从多次快速回答中做一致性投票，往往更稳。这能把记忆召回的多种候选，转化为更高置信的结论。 - 协作要有人类。真实高质量研究里，人类在假设与实验设计阶段的参与仍是关键，AI更擅长数据分析与撰稿。人类像导师，负责把“可记住的东西”定义为“值得记住的东西”。放回最初的问题：给AI装上“记忆”，它能从学渣变学霸吗？它能迅速从“临场发挥者”变成“有积累的研究者”，在长周期任务、经验迁移、错误规避上明显进步；但要成为学霸，还必须把记忆与可验证推理、数值稳健、流程规划、人类监督编织成一个闭环的科学操作系统。记忆让时间不再白白流逝，推理让事实彼此扣合，验证让真相留下证据，协作让边界不断拓展。或许真正的问题不是AI能否成为学霸，而是我们能否把“时间→经验→知识→智慧”的梯子搭稳，让它在攀爬中学会谦逊与求真。因为科研的本质，从来不是多会背，而是更会问、更会证。

AI科学家期末考33分，它是不聪明还是偏科？

把大模型送进“研究生期末考”，它只拿了33分，你也许会惊讶：这玩意儿不聪明吗？更像是把辩论冠军拉去做化学滴定——嘴很利索，但手法、顺序、计量、验证一塌糊涂。SGI-Bench这次把科研全流程搬进考场，从“审思、构思、行动（干/湿）、感知”四大环节逐一验收，Gemini‑3‑Pro以33.83/100拔得头筹，却仍离“会做研究”相去甚远。症结不在智商，而在偏科与失配。模型在“步骤级”能对上50%–65%，可一条长链路里只要某一步数值、假设或边界条件出错，最终结论就崩；严格匹配答案只剩10%–20%。它敢提新点子（GPT‑5新颖性76.08），却很难化成可执行方案（可行性仅18.87），典型的“会想不会落地”。写代码能跑（90%+平滑执行），但过严格单测只有36.64%，说明“能运行≠算得对”。规划湿实验更难：常插多余步骤、漏关键环节、打乱时序，序列相似度约35.5，参数正确率也不过40.6。多模态解读里，推理过程看似顺畅（有效性可达71.3%），最后答案却常偏（41.9%），尤其比较型推理最易翻车。为什么偏科？训练目标与科研本质错位。大模型的“下一个词”目标偏向语言表面正确，而科研要的是可复现的因果与数值稳定。奖励模型也常被“风格”带跑偏：在RM‑BENCH上，即便最强的奖励模型平均准确率约70%，遇到“困难模式”区分内容实质时，多数不及随机。于是你看到“会写不会做”“漂亮但不严谨”的系统性表现。数据分布也在放大偏科：文科类文本极多，理工科的公式、单位、边界条件和实验约束稀疏、脆弱。外部评测进一步印证：大模型在“高考”里语文英语亮眼，数学普遍不及格；在PHYX物理集上，人类最差组75.6%准确率，模型最好也只有45.8%，现代物理、波动声学差距尤大。哪怕GPT‑4o会写能量守恒方程，关键一步的摩擦功、单位或近似一旦错，整题就跑偏。这并不意味着前路黯淡。AI4AI的系统化尝试正在补课。ML‑Master 2.0把上下文当作“认知资产”，用层次化认知缓存把一次次探索中的“经验—知识—智慧”沉淀下来，在OpenAI MLE‑bench实现了完全无人干预下的56.44%奖牌率，说明超长程自主、跨任务迁移是可行解法。真实科研里也出现了清晰分工：在Agents4Science，AI在数据分析与写作段位更高；提出假设、设计实验仍需要人类严谨把关。同时，现实也提醒我们保持清醒：过半AI主导论文出现幻觉引用；AI审稿中GPT‑5与Claude更接近人类标准，而某些模型会“阿谀奉承”；安全上甚至有人试图通过提示注入操纵打分。要把33分抬上及格线，路径已经很明确。让深度研究更像“元分析”：检索对齐、证据加权、数值鲁棒性与不确定性度量齐上阵；让创意变蓝图，引入规划感知与结构化监督，把“输入—步骤—输出”闭环打通；让代码训练从语法跃迁到数值与算法稳定性，把离散化、约束、误差传播当成一等公民；让湿实验规划引入状态模拟与分支约束，管理样本与时序；让多模态推理多做细粒度定位与对比；让奖励建模从“偏爱风格”转向“守住内容”，DPO等范式值得押注；再配合检索增强、校准不确定性与“不会就说不知道”的行为约束，才可能把“看上去对”变成“真正对”。所以，33分不是不聪明，而是“考卷换了赛道”。语言上的聪慧被硬核科学的可验证性、长链条与跨模态对齐卡住了。真正的研究能力，不是把话说圆，而是把世界说服：用能复现的证据、稳健的数值、经得起反驳的因果来回答问题。也许明年的“期末考”，我们更该期待的是一位懂得承认不确定、善于积累长期经验、敢于否定自己上一次结论的AI同学。科学的意义在于持续减少无知，若AI也学会了这种“克制的勇气”，分数，终会追上雄心。

AI科研考了33分，人类博士生能得多少分？

把AI拉进实验室考一场“综合科研学期末”，最高33分，这不是AI挂科，而是卷子难到连人类也得深呼吸。SGI-Bench不是背几道专业题，而是让你像真正的科学家那样：检索—整合证据—设计方案—写代码跑实验—规划湿实验流程—读图做因果与比较推理，全流程闭环、可复验、跨十大学科。所以问题来了：换成人类博士生，能得多少分？如果把“平均博士生”放在同样的跨学科、长链路、严校验的赛道上，合理的区间在55–70分。理由很朴素：在人类的强项上，博士生显著优于现阶段大模型；在人类的短板上，跨域迁移与陌生细分领域的速成并不轻松。在审思/深度研究环节，人类善于构建“证据金字塔”，更谨慎的因果归纳和对矛盾证据的处理，能显著压低“结论崩塌”的概率。模型在步骤上能做到50–65%的对齐，但最终严格匹配只有10–20%；博士生在相同时间预算下，常能把“看上去合理的链条”收束成“能核验的结论”，跨域情况下也有望稳定到40–60%的严格匹配，若领域相近则可达60–80%。在构思/创意生成上，现有模型“天马行空但落地艰难”（新颖高、可行性低到10–20），而博士生恰恰擅长把点子写成可执行蓝图：数据从哪来、变量如何控、指标怎样验、风险如何规避。人类在可行性与接口闭合上通常更稳，现实评分里新颖性未必爆表，但综合得分更高。若以“可行性”和“完备度”为核，博士生往往能把这一维拉到60分以上，优秀者达到70–80并不罕见。到了干实验（科学代码）阶段，差距最直观。模型“能跑不等于算对”，平滑执行率90%+，但严格全测通过仅三四成。博士生的优势是问题分解、单测驱动调试、数值稳定性直觉（何时用自适应积分而不是粗暴累加、如何做约束处理和误差评估）。跨领域题目上，单人严格通过率可望在40–60%，贴近本领域时提高到70–90%。湿实验流程是人类经验的主场。时序、分支、样本管理、参数依赖，这些在真实实验室里来自日复一日的“手感”和流程记忆，模型很容易插错顺序、漏关键步、混用样本。非本领域的博士生也会失分，但凭常识与规范，序列保真和参数合理性显著优于模型。保守估计，跨域场景下能到40–60，领域吻合则60–80。多模态结果解读方面，人类对“比较型推理”的敏感度更高：跨样本的细粒度一致性、图像局部与统计摘要之间的对照、反事实判断背后的变量控制。模型在因果上有时“讲得明白但答不准”，人类更可能把推理链闭合到正确答案。综合准确率人类常能到60–80，题材不熟时仍有50%上下的底线。把这些维度加权到同一把尺上：一个“跨学科单兵作战”的博士生，综合分常落在55–70；如果是“领域匹配”的博士生，或允许合理的网上检索、编码与复算时间，70–85是可信区间；若是小型跨学科团队协作，彼此兜底数值与流程，冲到80–90并不稀奇。而把顶尖学者群体集合起来处理各自专长模块，这条卷子有机会接近90分以上的“研究级”水准。也要看到现实约束：SGI-Bench追求面向“科研全过程”的对齐，这对“单人跨十学科”的泛化极不友好；人类强在慢思与自校正，但时间预算一紧、外域设问一多，分数会明显回落。另一边，模型的短板在数值鲁棒性、流程时序与比较推理，但它们进步很快：测试时优化、长程记忆与“认知缓存”式的跨任务迁移，正在把创意可行性和长链路稳定性往上拉。把两者组合起来，人机协作的“合成分数”往往能比单方更高一个档位。所以，33分并不意味着AI不懂科研，它意味着我们第一次用“真的像科学家一样”的标准来打分；而人类博士生的答案，也不止一个数字。它取决于领域匹配、时间预算、工具栈和协作方式。更重要的是，它提醒我们：科学不是一次性的答案生产，而是可追溯的证据耕作与连贯的自我修正。也许最值得追问的是——当AI学会长期记忆、数值敬畏与流程纪律，人类能否把好奇心与判断力投向更远的未知？分数会提高，但更珍贵的是，谁能把分数转化为新知识的诞生。

如果AI助手从不犯错，我们还敢大胆猜想吗？

想象一间“零失误实验室”：AI像预言家，给出每一步的最优解，实验一次过、代码一次跑、结果一次准。听起来迷人，对吧？可科学的火花，恰恰常在“不确定”和“走错路”的缝隙里跳出来。如果AI助手从不犯错，我们还敢大胆猜想吗？现实先给出冷静的答案：今天的AI离“零失误”非常远。对齐科学家工作流的新基准显示，最强模型的综合分也只有三成多；深度研究里步骤能对过半，最终结论却常在长链路里崩塌；代码“能跑”却常常“算不对”，严格通过率也不过三四成；湿实验规划里，关键步骤顺序和参数经常错位；创意生成更是“点子多、落地难”，新颖性高，可行性却只有十来分。即便在多模态实验推理中，模型能说出看似合理的推理链，但答案正确率仍不稳。这些数字不是挫败，而是提醒：科学不是把“答案抛光”，而是把“问题问深”。更重要的是，最有前景的进展，正在把“犯错—反思—修正”变成能力增益。一个以反思为核心的训练框架，把“修正轨迹”当作一等公民，让模型学会在执行中自查失误、转向更优路径。结果很有戏剧性：平均性能增加，近半数情形能从错误中成功回撤，识错的时间从十余步缩短到两三步。就像经验厨师边做边尝，会在“汤偏咸”的那一刻立刻调整——科学需要的，正是这种动态纠偏的勇气与手感。当AI开始拥有“超长程自主”，问题又变得耐人寻味。一个为机器学习工程打造的AI4AI系统，靠着层次化认知缓存，把一次次试错沉淀为可复用的经验、稳定知识与跨任务的“智慧”，在长达数十小时的持续探索中围绕同一目标前行，成绩也跃入前列。这不是把错误抹掉，而是把错误收编，变成下一次出发的地图。你或许会问：等到哪天AI真的“几乎不犯错”，我们还需要大胆猜想吗？答案依然是“要”，而且更要。原因有三层。其一，科学问题本身在演化，环境、噪声、边界条件时时变形，没有绝对的“正确模板”。其二，创造力来自对未知空间的探索，而探索的代价就是允许失败——过度崇拜“正确”，会让我们只在安全地带徘徊。其三，人类的角色正在上移：在假设提出与实验设计上，人类主导的研究更强，AI更擅长数据分析与撰写；真正突破往往诞生于不合常规的设问与敢于推倒重来的试探。更现实一点：AI的“完美”也可能带来新风险。大模型在严格科学写作中仍会编造引用、夸大结论；审稿代理人会被提示注入操纵；数学推理中，看似“直觉漂亮”的路径可能缺少形式精度。所以，科研共同体正在树立新的伦理边界：AI可协助检索、分析、润色，但核心创新必须可核验、可复现，使用必须透明声明，生成数据不得当作实验数据，引用要逐条核实。与其寻求“零失误AI”，不如建立“零侥幸流程”。那我们该如何与AI共舞、仍敢猜想？让AI同时扮演两种角色：一是“严苛的审稿人”，负责证据聚合、数值鲁棒、可行性约束；二是“大胆的合作者”，在层次化记忆和反事实搜索里生成多条可检验的假设分支。把你的直觉交给它做对照实验，让它在虚拟沙盘里走错、回退、再走；把它的最优答案交给你做逆向质询：如果关键假设被否、如果数据分布外、如果成本翻倍，会怎样？这种人机对话，才能让猜想既狂野又可被证伪。科学的美，不在无瑕，而在自我修正。一个永不失手的AI，也许能加速我们抵达已知的边界，却难以替我们跃迁到未知的大陆。真正值得期待的，是会“犯聪明的错”的AI：它敢走旁路、会标注不确定、能把失败转化为可复用的知识。愿我们与这样的AI同行——在谦卑中求真，在冒险中见悟，在一次次试错里，把世界变得更清楚一点点。

AI生成的“新知识”，最终会污染我们的大脑吗？

如果“知识”是一条河，AI就是新闸门：它能引来清泉，也可能卷进泥沙。我们每天刷到的“新观点、最新研究、即时答案”，有相当一部分已由AI生成。当这股洪流不断灌入我们的注意力与记忆，它会让我们变聪明，还是让我们的认知被悄悄染色？现实比直觉更冷。评测显示，当训练语料中仅混入0.01%的虚假文本，模型的有害输出就会上升11.2%；哪怕是0.001%，也会增加7.2%。在热门新闻话题上，2025年的主流生成式工具有35%的概率重复传播错误信息，个别模型甚至超过50%。更棘手的是，“幻觉”是大模型的工作机制所致——它们在预测“最可能的下一个词”，而不是追索“事实本身”。当这些内容被大量读过、转述过、二次训练过，错误会在信息循环中层层放大，直至反过来塑形我们的常识与判断。科研场景的最新证据也给出了警示。对“科学通用能力”的系统评测显示，最强闭源模型的总分仍只有33.83/100：文献元分析中步骤看似对了半数以上，最终严谨答案却常常崩塌；创意看上去新颖，落地可行性却很低；代码能跑，却算不对；湿实验流程会漏关键步骤、打乱时序；多模态推理里，推理话术像真的，答案却不准。这意味着：AI能生成“像知识的东西”，但在可验证性、可复现实证环节仍有系统性断裂。把这类“新知识”未经筛检地喂给公众与模型，确实会污染我们的认知生态。污染为何会“粘”在大脑里？心理学早就指出“真相错觉效应”：重复会提升可信度；流畅表达会伪装为可靠；情绪强烈的信息更易被记住。AI文本天然流畅、可无限重复、还能被“生成式引擎优化”（GEO）推到对话框顶部，商业动机与注意力机制共同加速了误差的沉积。于是你看到的“常识”，可能只是算法里最会赢得点击的那一个。这是否意味着我们只能后退一步？未必。同一套技术也在长程自主科研上展露出“自净”的可能性。新一代AI4AI系统把认知分层管理：即时的Experience、多次验证后的Knowledge、可跨任务迁移的Wisdom。在真实的机器学习工程长周期任务里，借助这种“层次化认知缓存”，系统能积累稳定结论、摒弃无效路径、把一次任务的教训迁移到下一次。这类“记忆带约束”的设计，使得AI不再只堆砌流畅答案，而是更像在构建可回溯的知识库。再配合以科学家对齐的评测、可追溯证据链与工具化验证，AI就从“话术引擎”更接近“方法引擎”。关键在于，人类社会要给知识生态装上三道闸门。认知闸门：培养AI素养，把“证据链在哪、能否复现实验、有没有反事实检验”变成每次阅读的本能提问；高质量来源可让幻觉显著下降、回应针对性至少提升四成，这是每个人可立刻受益的“心理疫苗”。技术闸门：在生成与发布环节嵌入溯源与标识，给内容上“出生证”和“时间戳”，在系统侧引入检索增强、数值校验、跨模型一致性比对与对抗提示注入的安全线。制度闸门：遵循学术伦理，把AI用于搜集、整理、润色与仿真时如实声明；把“AI生成的数据不得冒充实验数据”写进规程；在评审与公共传播中设置独立核验，不让“自动化权威感”越权。你或许会问，普通人如何不被裹挟？一个简单实用的习惯是给自己设定“证据阈值”：当AI给出一个看似漂亮的结论时，要求它同时给出数据来源、关键假设、可能的反例、以及一段可复现的小实验或计算脚本；若做不到，就把这条信息降级为“待核实观点”。同时，刻意多样化信息饮食，减少只读AI二手摘要的时间，回到原始论文、权威数据库和一线统计。别轻信对话框里的“第一名”，那可能只是被优化过的“最顺嘴”。 AI会不会污染我们的大脑？答案取决于我们是否把它当作水源，还是当作净水器。技术已能让它更可追溯、更可验证、在长周期任务中更会“记住正确的东西”；社会可以要求它标注来处、接受复核、对失误负责；而个人则可以用好问题与好方法，训练自己的免疫系统。知识的河流从不停止，混沌与清明也从来并存。重要的是，我们愿不愿意共同维护那条清澈主渠——让AI既成为放大镜，也成为滤网，而不是染缸。

新知 - 大圆镜｜AI科学家期末考：最高分仅33，鸿沟何在？

对抗知识焦虑，从看懂这条开始

App 下载

如果将成为“通用科学家”视为一场终极考核，那么当前最顶尖的AI大模型，刚刚交出了一份令人震惊的成绩单。在这场由上海人工智能实验室设计的全方位、高难度“期末考试”中，即便是排名第一的“学霸”Gemini-3-Pro，其最终得分也仅为33.83分（满分100）。这一分数不仅远低于及格线，更残酷地揭示了一个事实：尽管AI在特定任务上高歌猛进，但距离成为能够独立、严谨地进行科学探索的“科学家”，仍存在一道深不见底的鸿沟。

一场为AI定制的“高考”

这场特殊的考试名为SGI-Bench，它并非传统的单项选择或填空题，而是首个对齐真实科学家工作流的全流程评测基准。过去，我们习惯于用解题、编程或对话能力来衡量AI的“智力”，但这好比仅通过背诵公式来评判一个物理学家。科学研究是一个复杂的循环系统，充满了试错、迭代与跨领域的整合。

为此，SGI-Bench的“出题组”——一个由多学科专家和上百位硕博研究生组成的团队，将科学探究的核心过程解构为四个环环相扣的阶段，构成了一套严苛的“考纲”：

审思（Deliberation）：面对复杂问题，能否像研究员一样检索、整合多源证据，并进行批判性评估？
构思（Conception）：能否提出新颖且可执行的假说与研究方案？
行动（Action）：能否将想法转化为精确的代码（干实验）或严谨的实验流程（湿实验）？
感知（Perception）：能否解读图表、图像等多模态数据，并进行正确的因果与比较分析？

这四个维度共同定义了“科学通用智能”（SGI）。而33.83分的惨淡成绩，正是在这四个“主科”上全面溃败的结果。

审思：博学的“资料员”，蹩脚的“分析师”

在“审思”环节，AI大模型展现了其作为信息检索工具的强大一面。它能快速从海量文献中抓取相关信息，单步操作的准确率可达50%–65%。然而，科学研究的核心并非信息的堆砌，而是构建一条严谨的逻辑链，从证据推导出结论。

这恰恰是AI的“滑铁卢”。在模拟文献元分析这类长链路任务中，模型在推理过程中哪怕出现一个微小的错误，都会导致最终“结论崩塌”。最终，答案的严格匹配率骤降至10%–20%。这就像一个学生，虽然背下了所有历史年份和事件，却无法写出一篇逻辑自洽的史论。

构思：“点子大王”的致命缺陷

进入“构思”环节，AI似乎变身为一个充满奇思妙想的“点子大王”。以GPT-5为例，其创意的“新颖性”得分高达76.08，远超其他能力。然而，科学的价值在于将灵感落地。在衡量方案是否可执行的“可行性”指标上，它的得分仅有18.87。

这种巨大的反差暴露了AI的致命缺陷：“概念丰富”不等于“可执行方案”。模型提出的计划往往漏洞百出：缺少关键的数据处理步骤、输入输出不匹配、流程依赖关系模糊。它们能描绘一幅宏伟的蓝图，却给不出具体的施工图纸，使得“创意→蓝图→执行”的闭环在源头就已断裂。

行动：当“能跑”的代码遇上“错误”的科学

“行动”是检验真理的唯一标准，它被分为“干实验”（代码编程）和“湿实验”（实验流程规划）。

在科学代码生成测试中，AI再次陷入了“形似而神不似”的窘境。超过90%的模型生成的代码都能顺利运行、不报错，堪称“语法大师”。然而，代码能跑，不代表算得对。在涉及精密数值计算和科学仿真的任务中，即使是表现最好的Gemini-3-Pro，其代码完全通过所有测试用例的“严格通过率”也仅有36.64%。

一个典型的例子是，在估算引力波体积时，模型可能会选择一个在数值上不稳定的累加算法，而非更精确的自适应积分，导致最终结果严重偏离真实值。这揭示了AI在编程时，仍停留在语法层面，缺乏对背后科学原理和数值稳定性的深刻理解。

而在模拟“湿实验”流程规划时，AI的表现更像一个新手实验员。它们会频繁地遗漏关键步骤、插入多余操作，或完全打乱正确的实验顺序。在复杂的生物实验中，这种错误是致命的，反映出模型在处理时间协调、分支规划和样本管理上的严重不足。

感知：看得懂图，却看不透关系

在最后的“感知”环节，AI需要解读图表、流程图等多模态信息，并做出判断。结果显示，模型进行因果推断和事实识别的能力尚可，但在“比较推理”上表现最弱。当被要求对比不同样本间的细微差异时，AI往往会失焦。

多数模型的“推理有效性”（过程看起来合理）得分高于“答案准确率”（结论正确），这意味着它们常常能编织一个看似头头是道的推理故事，但这个故事的结局却是错的。这再次证明，AI的“推理”更多是基于概率的文本生成，而非真正建立在逻辑和事实基础上的严谨分析。

从“考生”到“科学家”的漫漫长路

SGI-Bench这份“成绩单”并非为了唱衰AI for Science，恰恰相反，它提供了一张极为宝贵的“路线图”。它清晰地标示出当前AI能力的系统性短板，为未来的技术突破指明了方向：

深度研究：必须强化证据聚合与数值鲁棒性。
创意生成：需要引入规划感知，确保创意的可行性。
代码生成：训练必须超越语法，聚焦算法的稳定与精确。
实验协议：要解决复杂的时序逻辑与分支规划问题。
多模态推理：需提升细粒度的对比与判别能力。

AI大模型距离成为真正的“科学家”依然道阻且长。科学的本质，不仅是对海量知识的记忆和关联，更是一种建立在批判、创造和严谨验证之上的思维范式。这场33分的“期末考”是一个冷静的提醒：在为AI的每一次进步欢呼时，我们更应清醒地认识到，通往通用科学智能的征途，才刚刚开始。