给AI看三张图，它能当侦探破案吗？

想象一下：你把三张看似普通的图片丢给AI——门口、走廊、物品架。人类侦探会顺着“谁出现了、什么东西消失了、时间先后如何”去串联线索；AI呢？它真的能从像素里读出动机、行为与因果吗？这不是科幻电影的桥段，而是今天视觉推理研究的前沿考题。在“给少量示例、让模型现场悟规则”的场景里，AI已经像个合格的拼图高手。MIT何恺明团队把ARC这类极简视觉谜题重新定义为图像到图像的任务，提出了VARC：把小网格铺到“画布”，用视觉Transformer直接做逐像素分类，再配合平移/缩放增强与二维位置编码，并在测试时根据演示样例做快速微调。结果是在ARC-1上拿到60.4%准确率，只用本任务数据从零训练，逼近甚至超过不少大模型的公开成绩。更妙的是，注意力可视化显示它会“盯住”被复制的源像素，又在不同层追踪目标方向；学到的任务嵌入还能把语义相近的规则自动聚成一团——这是一种像侦探直觉般的抽象力。把视角拉回“侦破三张图”的现实题面，AI需要的不仅是识别，更是串联。谁进了画面？有没有换装？物品是否挪动？时间线怎么排？在长视频与多图推理上，研究社区正用“像侦探破案”的方法武装模型：Video-MTR把多轮推理引入长视频理解，先梳理全局再回看关键片段；LOVE-R1用“快慢结合”的策略，粗扫全片、重点细看，平均成绩明显提升；行人检索领域的LLaVA-ReID干脆学会“发问”，在模糊线索中主动追问细节，像警探盘问证人一样收缩搜索范围。这些进展告诉我们：当问题是“用有限视角抽丝剥茧”，AI的能力正在增长。但真正的“破案力”离不开系统2式的证据综合与因果判断，而这里恰是当代模型的软肋。研究显示，大模型往往靠模式匹配而非真正推理；在需要多步整合证据的WebDetective测试里，即便是最好成绩也只有中等水平，还频繁出现“证据充足却整合失败”“证据不足却不懂拒答”的顽疾。推理中的“知识遗忘”、过早放弃与冗余搜索循环，都会让三张图变成“三本糊涂账”。另一个现实挑战是图像真伪。要成为可靠侦探，AI先得识破伪造的线索。今天的可溯源技术如内容凭证与水印能部分缓解，但并非通吃所有生成模型；多工具鉴伪仍需与人类核验配合。换言之，AI的“眼睛”还需“法医级”的耐心与证据链意识。那么，给AI三张图，它能破案吗？在“规则清晰、线索自洽、目标明确”的谜题型任务上，答案趋近于“可以”，而且越来越好：像VARC那样，用画布、补上尺度与平移不变性、在测试时快速适配，多视角融合预测，都能把零碎线索拼成完整画面。在更贴近现实的侦查里，它已经能做很多专业助理的工作：抽取与跟踪人物与物体、重建时间线、标注可能的交互、提出若干高置信假设，并给出不确定性评估与“需要追加信息的点”。但要把“助理”升格为“主办侦探”，还需要把像素级扎实感知，和可追溯、可校验的多步因果推理严丝合缝地衔接起来。也许真正的飞跃，正是在两端同时用力：一端像VARC那样把视觉归纳偏置做深做透；另一端把系统2推理的通用性与适应性打造为“随案生长”的能力——会在测试时学习、会用记忆体系保存线索、会在不确定时主动追问。侦探的本事，归根到底是从极少线索里寻找不变量，并把它们串成真相的脊梁。AI正学会这件事，从彩色小格子的谜题，到纷繁复杂的人间剧场。等它学会了在“不完全信息”下稳健地坚持诚实、校验与克制，也许三张图，就足以讲述一个可靠的故事。

这种视觉AI，能成科学家的“火眼金睛”吗？

想象一下：科研人员盯着显微镜照片或材料截面图，在海量、琐碎、变化多端的纹理中寻找那条真正的“规律之线”。如果有一只“火眼金睛”，能从寥寥几例示范中悟出变换规则、忽略无关噪声、指出关键对应关系，科学发现的速度会被怎样改写？这正是把抽象推理当作“视觉问题”的新范式带来的想象空间。 MIT团队提出的 Vision ARC（VARC）抓住了一个常被忽视的事实：ARC这类抽象推理，本质上是在图片上进行规则迁移。把小网格搬到可扩展的“画布”，引入平移与缩放增强，用原生视觉Transformer去做逐像素的图像到图像转换，再在测试阶段利用少量演示进行快速适应。没有任何外部知识、完全从零训练，便在ARC-1上做到60.4%（Pass@2），接近顶级大模型。这说明“看懂模式”不必先变成一句话再推理，视觉网络可以直接在像素层面抽象与概括。这为何与“科学家的火眼金睛”有关？科学中的许多突破，来自对少量样本的模式洞察：细胞结构在染色前后如何对应、相变前后的微结构如何重排、加工参数改变后晶格缺陷如何迁移。VARC的“画布”策略和尺度/平移不变性，恰像显微镜下切换倍数和视野；多视图推理就像多角度、多次重复的观测；测试时训练则像研究者拿到新仪器或新样本时的快速校准。这些通用而朴素的视觉归纳偏置，帮助模型抓住不随位置与尺度改变的“恒常关系”，而这正是科学规律的影子。更有意思的是，模型内部涌现出的“任务结构感”。注意力可视化显示它会自动把源像素与目标位置关联起来，不同层分工不同；任务嵌入在低维空间中自然聚类，语义相近的任务靠得更近。这类可解释迹象让我们不仅拿到答案，还能看到“它为何这么看”。在科学场景里，这种“可视推理轨迹”可以成为研究者判断可靠性的关键线索。把视野再放宽些，视觉AI的潜能正在多点汇聚。自监督视觉模型已经能在无标注下学到空间结构和语义；扩散式视频生成的研究意外展现了强大的目标“追踪”能力；而在连续物理问题上，神经算子类方法能学习偏微分方程的解算。把这些积木与VARC式的“离散规则归纳”能力拼在一起，就有机会构建从像素到机制的跨模态工具链：先以视觉法则发现可疑的局部变换，再以物理先验与算子学习去验证、外推与量化。当然，火眼金睛也有近视的时候。ARC是低噪、离散色的小网格世界，真实科研图像充满噪声、畸变、遮挡与未标注因素；当前模型对旋转、对称、拓扑变形等更复杂不变性仍不够鲁棒；它擅长“映射”却未必立即给出“因果”。要让这只眼睛在实验室稳定工作，我们还需要更丰富的先验（几何、物理和仪器特性）、更强的校准机制（测试时训练的工程化流程）、以及更可信的解释与不确定性评估，让模型敢于“说明白、指出处、给把握度”。那么，答案是什么？这类视觉AI，已经具备成为科学家“火眼金睛”的雏形：能在少样本下快速适应，能在多视角中汇聚证据，能把隐匿的对应关系显影出来，给研究者提供可操作的线索与备选假说。它不是替代人类直觉与判断的水晶球，而是放大人类洞察力的放大镜——帮助我们更快聚焦关键现象，更稳验证候选规律，更广探索未知空间。科学的进步，常常始于“看见本不该被忽略的东西”。当AI从“看图识物”迈向“以视觉做抽象推理”，我们也许正站在一次认知工具的跃迁边上。让机器把潜藏在像素里的秩序照亮，把人类的好奇心与批判性思维放在方向盘上——火眼与慧眼相遇，才是发现之路真正的加速器。

不“读书”的AI，也能变得聪明吗？

想象一只从没读过任何“教科书”的小机器人，被丢进一堆像素方块拼图里，几次示范后，它就能自己找出规律、解开新谜题。它没背百科，也不懂常识，却在陌生局面里举一反三。听上去像科幻？这正是“AI不读书也变聪明”的现实样貌。关键在于我们对“聪明”的定义。若“聪明”指的是能在开放世界谈天说地、具备海量事实知识，互联网大模型的“读万卷书”仍是捷径。可如果“聪明”指的是抓住结构、形成抽象规则、迁移到新任务，那条路并不一定需要大海捞针式的预训练，结构化归纳偏置、数据增强和自适应学习就能让AI颇具灵性。最新的例子来自一个看似小众却很“AGI”的试金石——ARC抽象推理基准。一支研究团队把ARC从“语言表达的谜题”重新塑造成“视觉里的图像到图像转换”。他们没有喂给模型互联网的海量语料，而是在几百个极少样本的任务上从零开始训练，用标准的视觉Transformer直接做逐像素分类，还在推理时进行小步微调。成绩亮眼：在ARC-1上达到60.4% Pass@2，逼近顶尖通用大模型的公开结果，却完全不依赖外部知识。这不是侥幸，而是把“先验”和“适应力”用对了。他们把小网格嵌到更大的“画布”，让模型通过缩放和平移增强学会忽略位置与大小的差异；用2×2分块与二维位置编码，给Transformer注入视觉的局部性与空间感。这些视觉先验叠加带来约27.7个百分点的提升，其中“画布”一项就贡献了11.5个点，尺度增强再添6.2个点，平移增强2.9个点，2×2分块2.4个点。更妙的是，模型在注意力图上显露出“找源、定向、复制”的层次化策略，学到的任务嵌入在空间里自然聚类——这像极了人类在做“找规律”的练习题。 “不给书读”的另一条路径，是让AI自己出题、自己答题。某团队提出的自我对弈训练，让同一个模型同时扮演挑战者和解题者，无需外部数据也能迭代变强。在常用评测里，这种零外部数据的方式达到约40.6%的胜率，与传统大数据训练几乎打平；若作为补充步骤，还能把成绩进一步推高到43.1%。这说明，聪明并非只靠“读书”，还可以靠“练功”。还有一种“变聪明”的方式，是在思考过程上动刀。新一代模型提供“思考预算”与思路管理，让系统在复杂任务上分步规划、在简单任务上少想快做。它不直接等同于外部知识，而是把计算资源用在构造中间表征与验证路径上，提升推理质量与稳定性。配合测试时微调，这种“边想边学”的机制，在小样本、分布变化和新任务上尤其有效。当然，“不读书”的聪明有边界。缺乏世界知识，模型很难回答背景常识、跨领域事实的问题；当任务超出所学结构，性能会骤降。也有研究提醒我们，很多大模型看似强大，遇到措辞变化或低资源语言时，错误率会显著上升——这再次说明，靠背题库的聪明与会举一反三的聪明并不相同。前者需要广博的“书”，后者需要合适的“脑”。更实际的答案，或许是“兼修内外功”。在需要知识覆盖的场景，用大规模预训练与检索增强丰富“外功”；在需要结构推理的场景，用良好的归纳偏置、数据增强、自我对弈与测试时训练打磨“内功”。像ARC那样的工作告诉我们：即便不读书，只要任务可由环境提供足够的结构信号，AI也能学到“把规律装进脑子”的能力，并在未见任务上灵活应对。回到最初的问题：不“读书”的AI，也能变得聪明吗？可以，但它学到的是“如何想”，而不是“知道什么”。而真正让AI走向通用智能的，恐怕不是把书读尽，而是让它在世界里不断看、做、想、改——像人那样，把经验精炼成规则，把规则锻造成直觉。在知识与结构、记忆与思考之间找到平衡，也许才是下一代聪明机器的修行之道。

AI解开像素谜题，能拼好地上的碎花瓶吗？

把一只精致的花瓶摔成满地碎片，是一场关于“从碎片还原世界”的残酷考试。如今，AI在像素谜题上正突飞猛进：MIT何恺明团队把ARC谜题彻底拉回“视觉”本体，像处理照片一样端到端训练，让模型从纯像素中学会抽象规律。那么，解得了像素的“谜”，能拼得好现实中的“瓷”吗？先看看这次视觉范式的跃迁意味着什么。ARC的世界很克制：不超过30×30的小网格、约10种离散颜色、每个任务2–4个示例隐含一条变换规则。VARC把它改写成图像到图像的问题：把小网格放进64×64“画布”，加入平移与缩放增强，用2×2分块的ViT与二维位置编码，从零开始只用ARC数据训练，并在测试时根据新任务的演示样例做快速微调。这些“视觉先验”叠加带来27.7个百分点的提升，其中“画布”一项就贡献了11.5点。最终，集成模型在ARC-1上做到60.4% Pass@2，逼近顶级通用大模型，但完全不依赖外部知识。更妙的是，注意力可视化显示模型能定位源像素与目标位置的复制关系，不同层分工明确；400个任务的嵌入在t-SNE空间里按语义聚类，说明它学到的不只是答案，而是结构。然而，把地上的碎花瓶拼回去，难度曲线会骤然陡峭。现实不是10色小网格，而是连续纹理、复杂曲面、遮挡与缺失；不仅要匹配每片碎片的边界曲率、纹理延续和3D姿态，还要满足物理稳定性与装配顺序，甚至需要机械臂的抓取与放置规划。这已从“像素翻译”跃迁到“3D重建+组合搜索+物理约束+行动执行”的多学科综合题。更重要的线索来自另一条前沿证据链。GIR-Bench专门测AI在“先推理、后生成/编辑”上的真功夫：同一知识，理解能对上，生成却经常掉链子；数值与布局约束一旦隐含在提示里，许多强模型生成端显著失分；在需要全局规划与局部像素级修改的编辑任务（如视觉拼图、数独叠加的图像逻辑）中，即便最强系统也频繁失败。研究者发现，难点不在“想不明白”，而在“想明白了也难以把推理约束可靠地传递到生成过程”。把这条结论投射到“拼花瓶”：它至少和GIR-Bench中最难的“推理驱动编辑”同级，且再外加三维几何与真实物理，今天还谈不上稳定可用的“一步到位”。这是否意味着无解？恰恰相反，路径已隐约可见。把VARC的长处带过去：用“画布式”重采样与尺度/位姿增强做碎片的多视图表征；在新物体上进行测试时微调，让系统现场适应独特的破碎纹理；把“像素到像素”的端到端能力，升级为“点云/网格到装配”的图像–几何混合网络；把GIR-Bench揭示的“推理–生成断裂”用显式约束桥接起来：用图匹配与能量最小化约束碎片边界、用可微物理保证稳定、用扩散模型做纹理补全，再把整套约束以内循环方式反哺生成与动作规划。哪怕先从受控环境入手——二维平面拼图、规则材质、受限碎片数——都可能在短期内取得“可用但不完美”的系统。所以，回到那个直白的问题：今天的AI，能不能把碎花瓶拼好吗？在实验室的简化版里，越来越像；在充满灰尘与偶然性的真实地板上，还差几步关键的跨越——从二位到三维、从理解到可控生成、从静态视觉到闭环感知–推理–行动。好消息是，VARC证明了“抽象与规则”可以从像素中涌现，GIR-Bench则为“把规则贯彻到生成与编辑”亮起了红灯，这红灯恰是前行的路标。也许智能的本质，就是把无数碎片重新编织成秩序的能力。等到我们让机器真正学会“看见—思考—动手”的闭环那一天，它不只会拼好一只花瓶，还会把碎片里藏着的故事，一起复原。

AI犯的错，和我们犯的错一样吗？

当你和一位“自信满满”的AI对话，它一本正经地给出一个看似完美的答案，却事后被证实完全不靠谱——这像不像某些考场上的“熟练瞎编”？可别急着笑，问题其实很深：AI犯的错，和我们犯的错，并不是一回事。人类的错误，源自一种漫长进化里被打磨出来的心智：我们有身体，有情绪，有“价值函数”般的直觉，会在做错前就“感觉不对”，会在不确定时说“我不知道”。AI的错误，则是另一种生态的产物。它们在海量数据中学会的是预测下一个词、下一个像素的统计规律；它们不会因为答错而“被自然淘汰”，也没有内驱力去在模糊处放慢脚步。Andrej Karpathy把这称作“非生物智能”的陌生之处：硬件不同，目标不同，学习压力也不同，所以犯错的方式与后果自然不同。看一眼抽象推理的试金石——ARC基准。传统做法常把这些小网格谜题翻译成语言，再用大模型“编程式”解题，结果容易出现“会背不会解”的错误：在熟悉分布上神勇，一换新花样就崩。MIT团队把思路翻过来：把ARC当作真正的视觉问题来做，直接做图像到图像的逐像素预测，并把小网格放到更大的“画布”上，用缩放和平移增强让模型学会忽略位置与尺寸扰动。这个叫VARC的系统，只用ARC数据从零训练，在ARC-1上做到60.4%准确率，逼近顶尖通用模型。更关键的是，它的“纠错方式”非常工程化：二维位置编码、2×2分块、平移与尺度增强叠加后整整提升了27.7个百分点，单“尺度增强”就带来6.2点进步。这些不是靠记忆，而是把“会犯的错”变成可控的泛化缺陷，再用正确的视觉先验去弥补。这恰好照亮了人机错误的分水岭。AI的许多错来自相关性替代因果、分布外脆弱和过度自信。HumbleBench这类评测把“以上都不对”设为固定选项，结果不少模型宁愿乱选也不愿承认不确定，表现甚至低于随机水平。人类当然也会有确认偏见、刻板印象和错觉，但我们往往能在关键情境下进行元认知自检，愿意停下来说“再想想”。Ilya Sutskever曾指出，过度为“刷榜”优化的强化学习会造就“竞赛型选手”的错误风格：像极了死磕套路、却在真实开发中频频失手的程序员。AI的“尖刺式能力”与“过度自信”，正是它所处训练生态的回声。从VARC的进展还能看到另一层启示：让AI少犯“非人的错”，不一定靠无边的数据，更要靠正确的归纳偏置与适应机制。把网格放到画布上、用视觉块捕捉局部性、用二维位置嵌入保留结构、在测试时利用演示样例进行小步微调……这些设计把错误从“胡编乱造”转化为“缺某种不变性”，从而可以系统修复。相对地，人类的错常常混杂动机、情绪与社会判断——我们会被权威或群体影响，但也正因价值与情感，能在未知里保持克制与责任。那么，AI犯的错，和我们一样吗？表面相似：都会看错、想歪、过度自信；本质不同：人类错误受进化的价值函数与元认知调节，AI错误受训练目标与数据分布塑形。好消息是，这种差异并非不可弥合。让模型学会不变性、拥抱不确定、在分布外保持谦逊，把“我可能错了”作为可学习的能力，正成为新一代研究的方向。ARC之于AI，像是镜子与体检单：照出不是“智力不够”，而是“先验不对、机制不全”。或许更值得思考的是：真正成熟的智能，不在于永远不犯错，而在于以多快速度、以多大诚意、用多稳的原则改正错误。当机器也学会了这件事，人类和AI，或许才能在同一种意义上“犯错”，并在同一种意义上，变得更聪明。

新知 - 大圆镜｜AI觉醒“视觉”：当机器不再“阅读”谜题，而是开始“看见”答案

对抗知识焦虑，从看懂这条开始

App 下载

通用智能的“试金石”与范式之争

在一间虚拟的考场里，坐着当今最强大的人工智能。它们能写诗、能编程、能与人对谈如流。然而，考卷上的题目却让它们陷入了困境。这些题目并非深奥的语言迷宫，而是一系列色彩斑斓的方格谜题，名为“抽象推理语料库”（ARC）。

ARC，由Google的AI研究员François Chollet于2019年推出，被誉为“通用人工智能的试金石”。它的规则简单到孩童都能理解：通过观察几个“输入-输出”的示例，找出其中隐藏的图形变换规律，并应用到新的输入上。然而，这些对人类直觉不言而喻的谜题，却成了AI难以逾越的天堑。多年来，AI界的通行做法是，将这些视觉网格“翻译”成文本序列，然后让大语言模型（LLM）去“阅读”和“理解”，试图用语言逻辑破解视觉密码。这就像蒙着眼睛，只通过他人的口头描述来学习绘画，终究隔了一层。

这场持续数年的“范式之争”——究竟该用语言的逻辑，还是视觉的直觉来叩开通用智能的大门——在2025年11月26日迎来了一个决定性的转折点。来自MIT何恺明团队的一篇论文，以一句石破天惊的宣言给出了答案：“ARC是一个视觉问题！”

VARC：从像素到抽象的视觉桥梁

这篇名为《ARC Is a Vision Problem!》的论文，提出了一个名为**视觉ARC（Vision ARC, VARC）**的全新框架。它彻底抛弃了“语言中介”的弯路，将ARC任务重新定义为一个纯粹的“图像到图像”的转换问题，让AI第一次真正用“眼睛”去看待这个谜题。

VARC框架的设计充满了视觉艺术般的直觉与优雅。研究团队没有直接处理那些大小不一的原始网格，而是引入了一个绝妙的概念——“画布”（Canvas）。

想象一下，每个谜题的输入网格不再是一个孤立的数据矩阵，而是一张被随意“贴”在64x64固定尺寸画布上的小图片。这张小图片可以被随机缩放和平移。这个看似简单的操作，却蕴含着深刻的视觉智慧：

引入视觉先验：它教会了模型一个计算机视觉的基本常识——平移和尺度不变性。无论一个物体在图像的哪个角落，无论它看起来是大是小，它依然是同一个物体，其内在规律不变。这正是人类视觉系统泛化能力的关键。

丰富局部信息：模型不再逐个像素地审视问题，而是通过**“分块”（Patchification）**策略，像看马赛克一样，一次观察一个2x2的小区域。这样，一个“图块”内就能包含多种颜色组合，为模型提供了远比单个像素更丰富的空间关系线索。

有了这张“画布”，团队顺理成章地请出了为视觉而生的主角——视觉Transformer（Vision Transformer, ViT）。这个模型架构，配上能理解二维空间结构的2D位置编码，开始直接端到端地学习如何将输入的“画布”变成答案“画布”。

训练过程也独具匠心，分为两步：

离线训练：在ARC的400个训练任务上，联合训练一个通用的ViT模型，让它学习普适的视觉变换规则。
测试时训练：当遇到一个全新的考题时，模型会利用题目提供的几个示例，进行一次快速的“考前突击”，对自身进行微调，从而迅速适应新规则。

结果是惊人的。在ARC-1基准上，VARC的集成模型取得了60.4%的准确率，不仅大幅超越了其他所有从零开始训练的模型，其性能甚至媲美那些参数量大几个数量级的顶级大语言模型，并与人类的平均水平（60.2%）几乎持平。

视觉先验的突破性力量

VARC的成功并非偶然，而是一次对“第一性原理”的回归。消融实验清晰地揭示了视觉先验的决定性力量。从一个朴素的基线模型开始，逐步加入二维位置编码、分块策略、平移和缩放增强等视觉元素后，模型的性能累计提升了27.7个百分点，其中仅“画布”相关的设计就贡献了11.5个点的增益。

这证明，抽象推理能力并非只能从海量的语言数据中涌现。当给予正确的“视觉偏置”（Inductive Biases）时，智能可以直接从原始像素中诞生。VARC用一个相对小巧、且仅在ARC自身数据上训练的模型，挑战了“大力出奇迹”的行业信条，上演了一场优雅战胜蛮力的好戏。

更有趣的是，通过可视化模型的“注意力”，研究者发现模型确实在学习有意义的视觉模式。例如，在处理复制任务时，模型的注意力会精确地从源像素聚焦到目标位置。将不同任务的学习嵌入进行降维可视化后，语义相似的任务（如“染色”类或“对称”类）在空间中自然地聚集在一起。这表明，VARC不仅在解决单个问题，更是在学习这些视觉谜题之间内在的、抽象的关联。

告别语言依赖：智能研究的“视觉本源”回归

VARC的突破，其意义远不止于攻克一个AI基准测试。它标志着在通往通用人工智能的道路上，一次深刻的范式转换正在发生——从语言中心主义，向植根于感知的视觉本源回归。

长期以来，AI领域似乎有一种默认假设：高级智能等同于语言能力。但人类智能的根基，恰恰建立在对物理世界的感知和互动之上。我们在学会说话之前，就已经通过眼睛理解了空间、物体和因果。VARC的成功恰恰印证了这一点：真正的抽象能力，或许本就源于视觉经验的归纳，而非语言符号的排列组合。

这一“视觉为中心”的范式，与AI领域另一前沿方向——“世界模型”（World Models）不谋而合。无论是自动驾驶、具身智能还是机器人，AI若想在真实世界中行动，就必须首先构建一个关于世界如何运作的内在视觉模型。它们需要理解重力、理解碰撞、理解空间关系，而这些都无法仅从文本中学到。

当然，VARC并非终点。它依然依赖于耗时的“测试时训练”，对某些复杂规则的理解也存在局限。但它开辟了一条全新的、极具潜力的道路。未来的研究或许可以将这种纯视觉方法与更大规模的视觉预训练相结合，探索更高效的适配机制，甚至融入多模态信息，让AI同时拥有“看”和“说”的能力。

正如论文结语所言：“ARC不仅仅是一个谜题集合；它是一个视觉世界，理应被用视觉的眼睛来看待。” VARC的出现，让我们得以一窥通用智能的未来图景：一个不再仅仅依赖语言符号，而是能真正“看见”并“理解”我们所处世界的智能。这或许才是AI从“鹦鹉学舌”走向“乌鸦反哺”式真智能的关键一步。

通用智能的“试金石”与范式之争

VARC：从像素到抽象的视觉桥梁

视觉先验的突破性力量

告别语言依赖：智能研究的“视觉本源”回归

评论