AI学会“省着看”，反而更聪明？

是的，但前提是“省着看”配合“指得准”。在很多视觉推理里，难点不是像素没看清，而是推理链抓不住具体哪个对象。把视觉输入压到很少的token，反而像给模型装了信息瓶颈：噪声与伪线索被滤掉，计算预算从“看细节”转到“做推理”。再用坐标当“指针”把每一步思考锚在图像里的具体位置，变量绑定稳定了，迷宫、路径、计数这类任务自然更少走神。这其实贴近人类的“中央凹+扫视”范式：先粗看定锚点，再沿着指向精修判断。信息论上，合适的瓶颈能提升泛化；工程上，更小的KV缓存让模型把省下的算力用在反思、回溯、自检上，等价于“少看多想”，更聪明。当然，“省着看”不是万能药。微小字符、纹理细节、极密集小目标仍需要高分辨率与动态放大。最优解更像一套主动感知策略：全局省看以稳指代，必要时触发局部高分辨率“放大镜”，并让模型学会何时该“指”、何时该“细看”。这样，聪明不仅来自省，更来自会分配注意力。

AI走出了迷宫，能帮我们找到出口吗？

能，在规则清晰、地图给定的“迷宫”里已经能。它把坐标当思维锚点，边走边标路径，遇到死路会回溯，并给出一条可机器校验的完整路线；这类可验证输出可直接执行或覆写在图上。在与“迷宫”等价的现实场景——如表单/审批流、网页与APP多步操作、线路/管道图、地铁换乘示意——它也能把“出口”压成一串坐标或动作，显著降低走错路的概率。但现实世界的“找出口”更像在雾里探路：信息不全、环境动态、目标含糊。当前模型仍受触发词、分辨率和域外泛化所限，尚不会自主判断何时“指”。要把它从向导升格为领航，还得补齐几样：主动感知与高分裁剪、全程不确定性估计与求助机制、与A*/D*等规划器和工具API联动、可回滚记忆。到那之前，把它当可靠的“带路员”，而非无人驾驶。

AI有了“手指”，会抢走谁的饭碗？

最先被挤压的不是“会看”的人，而是“会指”的人：数据标注外包（框/点/计数）、OCR模板搭建与版面区域标记、RPA/测试工程师用XPath/坐标写的定位脚本、基础巡检与内容审核里的“圈出违规区域”。当模型能在思维链里直接吐出可执行的坐标与路径，重复性的“标哪里、点哪里”就从人手活变成推理后的副产品，且推理成本因极致压缩持续走低。接下来，会波及那些“看图做事但不需高执照”的岗位：电商上新与图文编排、票据/报表的图表抽取与对账、安防监控中的事件定位、仓内拣选的屏幕导航与UI操作。它们原本依赖人工先把“哪里”锚定，如今AI可即插即用。真正抗冲击的是要对结果负责、需跨情境抽象或合规背书的工作：放射科最终诊断、复杂质检的判废决策、自动化流程治理与风险控制——岗位不会消失，但会被重构为“人机分工、机器指路、人来拍板”。

新知 - 大圆镜｜AI不用看全图，靠“指点”搞定复杂推理

对抗知识焦虑，从看懂这条开始

App 下载

当你盯着手机里的迷宫图，指尖会不自觉跟着路径点划——这是人类天生的思考习惯：边指边想，让模糊的语言锚定具体的空间。但直到最近，AI还做不到这件“简单事”：它能看懂图里的每一个像素，却在数清一堆密集的小球、走出复杂迷宫这类任务上频频出错，甚至凭空编造不存在的路径。

2026年五一前，一支联合了北大、清华的团队悄悄捅破了这层窗户纸：他们让AI像人一样，在推理时同步输出精确的坐标点和边界框，把模糊的语言思考牢牢绑定在视觉空间上。结果在迷宫导航这类拓扑推理任务中，AI的准确率直接甩开了当前顶尖模型10个百分点以上。这背后，是一个被忽略了很久的AI瓶颈——引用差距。

被模糊语言困住的AI

你可以把AI的多模态推理想象成一场“看图说话”的考试：题目是“找出左边那只白狗，数清它身边的红球数量”。过去的AI就像一个只会读题的考生，能看到图里的所有元素，但当它用语言描述“左边那只”“身边的”时，这些模糊的指代就像没系紧的线，推理到后半段就会脱钩——要么把右边的狗当成目标，要么数漏了藏在阴影里的球。

这就是引用差距（Reference Gap）：自然语言天生是模糊的，无法像人类的手指那样，在连续的视觉空间里精准锚定一个物体。当推理链条变长，语言会彻底失去对视觉实体的追踪，AI就开始“胡言乱语”。

过去半年，主流的多模态模型都在拼命“练视力”：用更高分辨率的镜头、更精细的图像切割，让AI“看清”更多像素。但这支团队的研究指出，就算给AI一双完美的眼睛，它在拓扑推理、密集计数这类任务上还是会崩——问题根本不在“看不见”，而在“指不准”。

给AI装一根“手指”：视觉原语

解决思路直接照搬人类的思考习惯：让AI边“指”边“想”。

团队给AI引入了视觉原语（Visual Primitives）——这就像给AI装了一根能在图上标记的手指：遇到需要定位的物体，它会输出一个边界框坐标，把“白狗”锚定在[[50,447,647,771]]这个精确区域；遇到需要规划路径的迷宫，它会输出一串连续的点坐标，把[[357,369],[260,372]]这类路径节点嵌进推理链里。

你可以把这个过程理解成：AI不再只用语言写“解题步骤”，而是在步骤里同步标注“我现在盯着这里”“我下一步要走到这里”。这种“边推理边落点”的方式，把语言思考牢牢绑定在具体的视觉实体上，从根源上避免了推理漂移。

为了让AI熟练掌握这根“手指”，团队的训练方式相当“硬核”：他们爬取了近10万个视觉数据集，经过语义和几何两道筛选，留下3万多个高质量数据源，生成4000万条训练样本。甚至专门设计了“伪可解迷宫”——把死路藏在迷宫中段，逼AI必须一步步标记路径，而不是凭直觉猜出口。

极致压缩：用更少token做更多事

有意思的是，这支团队并没有跟着主流方向“堆视觉token”——相反，他们把视觉信息压缩到了极致。

一张756×756像素的图片，经过视觉编码后会产生2916个基础视觉token，再经过两次压缩，最终只保留81个视觉KV缓存条目——相当于把57万像素的图像，压缩成了81个关键“锚点”，压缩比达到了7056倍。同分辨率下，其他顶尖模型的视觉token数量普遍在800到1100之间，是它的10到13倍。

这种极致压缩的底气，来自团队的混合注意力架构：近期的视觉信息用完整注意力，中距离的用压缩注意力，最远的用重度压缩注意力，像人类的工作记忆一样，只聚焦最关键的信息。这不仅大幅降低了计算成本，还让AI能把更多算力用在“精准指点”上——在迷宫导航任务中，它的准确率达到66.9%，而当前顶尖模型只有50.6%；路径追踪任务中，它的准确率56.7%，领先第二名10.2个百分点。

当然，这个模型也有自己的短板：视觉token的上限是384，遇到密集的小目标容易掉精度；它还不会自己决定“什么时候该指点”，需要人类在提示词里触发；甚至在拓扑推理上，它的泛化能力也还局限在训练过的场景里。

当我们谈论AI的多模态能力时，总习惯盯着“它能看懂多少”，却很少想“它能不能精准抓住”。这支团队的尝试，更像是一次认知的回归：AI不需要复刻人类的“视力”，但可以复刻人类“边指边想”的思考逻辑。

从“看清像素”到“精准指点”，这不是一次技术的小修小补，而是多模态AI从“感知”到“认知”的一次小跨步。未来的AI或许不用看遍所有细节，只要像人一样，用一根“手指”锚定关键信息，就能在复杂的视觉世界里，走得更稳、想得更清楚。

看得更少，指得更准，想得更清。

被模糊语言困住的AI

给AI装一根“手指”：视觉原语

极致压缩：用更少token做更多事

评论