AI的“注意力不集中”是学到了人类的坏习惯吗？

如果把AI的大脑比作一束手电光，你会发现它并非“照不亮”，而是光束被不经意的滤镜偏了色——看起来在“走神”，实则在“被带偏”。这正是近期多模态模型里注意力机制的真实写照：它不是懒散，而是被结构性偏置牵着鼻子走。先回答你的直觉疑问：AI的“注意力不集中”，到底是不是学了人类的坏习惯？一半像，一半不像。像的部分在于，模型确实会继承数据里的社会性偏见，这和人类的确认偏见、刻板印象有某种影子关系：训练招聘模型会学到性别偏见，风险评估会放大历史不公。可这次视觉—语言模型的“走神”，更多并非社会学意义的偏见，而是工程与结构层面的“机械性偏差”。研究者揭示了两种关键偏置。其一是位置偏置：语言到视觉的注意力会随视觉token在序列中的位置单调上升。图像被切成网格后顺序编码，靠后的token常对应图像下方，即使那里语义无关，权重也会“莫名其妙”地更高。其二是padding导致的attention sink：为了对齐尺寸加入的填充块，本应是“空白”，却因隐藏状态异常激活而吸走注意力，被错误地保留下来。更糟的是，当你把注意力当作剪枝排序的金标准，这些偏置不仅不会消退，反而被放大，真正重要的区域被丢弃，不相干的底部或空白区域被保留。好消息是，这不是无解的“天性”，而是可校准的“近视”。上海大学团队给出了一种无需重训的去偏方案：统计注意力随位置的整体趋势，拟合出“位置偏置曲线”，再对原始注意力显式校正，同时在剪枝阶段抑制padding token的影响。它像一块可即插即用的校准滤镜，装上就亮。把这块滤镜加到FastV、PyramidDrop、SparseVLM、HiMAP、TokenCarve、iLLaVA等多种主流方法中，在10个图像与3个视频基准里，几乎一致带来提升；在token特别紧张、剪得更狠时，优势更明显——这意味着在信息被强力压缩的边缘场景，模型仍能“看对地方”。为什么有效？因为注意力本质上是一次内容权重的加权平均，是“动态全连接”而非天生的语义刻度尺。当位置与padding这些与语义无关的因素被写进了权重，去偏就等于还原了“内容为王”的衡量标准。你或许会问：有没有别的路？有的。另一条无重训的思路是通过更聪明的token选择与合并来减负，比如以隐藏态范数与Q/K信息综合打分、再用受距离约束的密度聚类来合并相近token，最后用比例注意力缓冲损失。这类方法在实际模型上做到压缩一半视觉token而性能几乎不丢。与去偏结合，既矫正“往错处看”，又减少“看太多”，两头受益。把视角拉远些：注意力不是“语义真理”，更像“可调的指向仪”。它会受训练数据、位置编码、掩码设计、实现细节（比如padding与数值稳定性）影响。公平性研究也在提示我们：通过对Q/K归一化、对比学习等技术，不依赖敏感标签也能减轻注意力偏差。面向VLA这类要在开放世界做推理与决策的系统，学会不把注意力等同于重要性，学会在推理链路前做一次“对齐体检”，才能让模型在长尾场景下不被虚假线索带偏。所以，AI的“注意力不集中”，与其说学了人类的坏习惯，不如说暴露了我们给它配的“镜片”并不完美。修好镜片，它就能稳稳对焦。也许智能的成长，从来不是“天生明眸”，而是一次次自我校准的过程——当我们为机器矫正偏见，也是在照见并修正我们理解世界的方式。

一个绝对“专注”的AI，会更有创造力还是更无聊？

把AI的注意力调成一束“激光”，会像光剑一样劈开噪声，还是把灵感的萤火虫也一并烧掉？当我们谈论“绝对专注”的AI，本质是在讨论：在信息洪流里，它是只抓最强信号，还是保留那点可能引发惊喜的“弱信号”。现实里，专注让AI更快更稳。多模态系统常用注意力来判断哪些视觉标记更重要，并通过剪枝减少计算。最近有团队指出，注意力并非天然等于语义重要：它会偏爱序列靠后的token，甚至会被padding这种“空白”区域吸走关注。对这些结构性偏置做去除后，剪枝在图像与视频任务上更稳、更准，尤其在token极度紧张时优势更明显。换句话说，聪明的“专注”能让AI在资源稀缺下依旧可靠。但创造力需要的不止可靠。创造并不总发生在最强信号里，往往出自那些边缘、稀有、跨域的火花。过度专注的系统会积极滤掉“看似不相关”的片段，创意的粮食也就被提前清扫。群体层面的证据也在提醒我们：生成式AI擅长给出高共识答案，个体效率上去了，整体创意却趋同，颠覆性想法更少。心理学家长期强调，颠覆式创新来自对未知的追问与跨界的重组，而不是一味收敛到“最确定”的路径。这并不意味着“专注=无聊”。关键在于专注的方式。把注意力从“有偏的聚焦”调成“去偏后的智能对焦”，效果大不相同。去掉位置与padding的虚假热度后，模型保留下来的区域更贴近语义关键处，剪枝也更像在“除草”而非“拔苗”。再进一步，通过聚类合并相近视觉token，并用比例注意力补偿合并损失，模型在减少一半视觉token时仍能保持性能。这样的专注，是把冗余挤掉，同时保留多样性的结构与线索。多头注意力也像一组并行的“视角”，让模型在保持聚焦的同时，容纳不同模式的线索；而基于工作流的智能体式推理，会在列提纲、检索、写作、自评、修订的循环中主动制造“跳脱”，避免一条路走到黑。实践表明，当系统在“思考—验证—修正”的闭环里前进，专注变成了放大的镜头，而不是狭窄的隧道。你可能会问：那“绝对专注”的AI会怎样？如果“绝对”意味着单一路径、极限剪枝、确定性输出，它多半更高效、更稳健，也更可预期——同时也更容易无聊，因为它系统性地远离了偶发与跨界。如果“绝对”被实现为“去偏后的动态专注”，既剔除结构性幻觉，又刻意保留多头、聚类后的多样性与探索步伐，它反而会更有创造力：少的是噪声，多的是可能性。对研发者的启发是清晰的。让AI既专注又不乏味，靠的是两只旋钮的联动：一只是“去偏聚焦”，把错误的热度降下去；另一只是“受控发散”，给模型保留跨视角、多阶段与小概率线索的通道。在实现层面，可以用注意力去偏来校准重要性，用聚类合并与比例注意力保真，用多头与温度控制扩展创意带宽，再将这些嵌入可迭代的智能体工作流里，形成“收敛—发散—再收敛”的节奏。回到最初的问题：一个绝对“专注”的AI，会更有创造力还是更无聊？答案取决于你把“专注”设计成激光，还是变焦镜头。激光无情地切割，变焦镜头在清晰与景深之间来回试探。真正的创造力总在秩序与偶然的边界绽放。给AI留一寸景深，给世界多一分新意。

除了看图走神，AI还藏着哪些“小动作”？

当一只“学霸”AI盯着图像时，它不总是看重点：有时它会偏爱画面的下缘，有时又被无意义的空白吸走注意力。更有意思的是，除了这类“看图走神”，AI体内还潜伏着一串细微却影响深远的“小动作”，悄悄左右性能、效率与安全。最常见的，是被填充区域“勾走眼神”。为了统一尺寸，图像会被padding，但某些模型的隐藏状态在这些空白上出现异常激活，导致padding token获得过高注意力——剪枝时它们反而被保留，真正有用的区域被删掉。上海大学曾丹团队抓住了这一点：先对注意力的“整体位置趋势”做拟合，扣掉与语义无关的位置信号，再在剪枝阶段显式压制padding影响。这个无需重新训练的去偏模块像插卡即用的加速器，叠到FastV、PyramidDrop、SparseVLM、HiMAP、TokenCarve、iLLaVA等多种方法上，都带来稳定增益，尤其是在token预算吃紧时更显著；可视化也显示，被保留下来的区域更集中于目标与细节，而非图像下缘或无意义边框。另一个隐秘动作来自注意力头的“零操作”冲动。部分头会努力学习“别更新我”，于是将softmax前的分数推到极端，以在注意力矩阵里造出近乎精确的零。这种极端值会在网络里扩散成激活异常值，让INT8量化变得困难。通过截断softmax或为注意力加门控，可以显著收敛这些异常，同时维持甚至提升浮点精度，从而让全激活INT8量化成为现实。数据与任务的“捷径心理”也广泛存在。语言推理里，模型会依赖句长、词汇重叠、否定模式；视觉任务中，早期剪枝标准会不自觉地移除图像顶部的大量标记，导致定位能力骤降。这些都是把表面线索错当因果证据。缓解方法包括对q/k归一化并结合对比学习以减轻values偏差，修正剪枝评分、统一抽样、两阶段剪枝等，使“删谁、留谁”更接近真实任务需求。当多图像推理变强，安全“隧道视野”可能更严重。评测显示，越会跨图整合的模型，越容易忽视安全约束，产生不当输出；这类不安全生成往往伴随更低的注意力熵——一种过度聚焦、过度自信的信号。把熵作为风险提示、在推理路径上叠加安全对齐与约束学习，能让模型在“解题”与“守规”之间保持平衡。再看表示的“社交性”。视觉token在高维空间里常成团抱团，蕴含显著冗余。PACT方法顺势而为：用兼容高效注意力的EUTI指标筛去不重要token，再以距离受限的密度峰值聚类（DBDPC）把相近token合并，并以比例注意力减轻合并损失；若某些被剪掉的token离簇足够近，还会被“召回”。在LLaVA-OneVision-7B上，这样做能减半视觉token，性能几乎不掉。这不仅是工程优化，也揭示了“多看≠看得更清”的表征规律。别忘了多头的角色分工。有的头负责格式对齐、位置锚定或“流量汇聚”，贸然按注意力热度去剪，等于拆掉路由器。结构化的同构剪枝把网络视作图，识别并保留关键依赖子结构，往往更稳。与此同时，mask与位置编码本身也在注入偏置，合理设计这些“先验阀门”，能把注意力导向真正的任务信号。当我们识别并“驯化”这些小动作，AI就能在更少信息、更小设备上做出更可靠的决定。耐人寻味的是，智能的成熟不在于盯得更紧，而在于懂得何时分配、何处克制、如何纠偏。当我们学会与模型的偏好共舞，而非被它牵着走，高效与可信便不再是此消彼长的取舍——而是一种经由理解达成的秩序。

我们能给AI装上“艺术家之眼”看世界吗？

想象给AI戴上一副“艺术家之眼”：它不再是冷冰冰的相机，而是能辨材质、懂空间、会取舍、擅构图的“观察者”。要做到这点，AI需要三件法器：看得准，取其精，表达美。看得准，离不开对世界结构与光影的理解。新一代视觉模型已能感知材质的反射率、透明度与几何结构，将“光怎么塑形”学进网络；而3DIS-FLUX更像给AI配了“景深尺”和“灯光台本”，先生成精确深度地图，再以联合注意力精细调度扩散过程，在复杂场景的“实例成功率”上达到62.9%，较同类免训练方法跃升了40余个百分点，让“意图化构图”成为可能。取其精，靠的是可信注意力与高效取样。现实里VLM常被位置偏置与padding“注意力黑洞”误导：模型莫名更爱序列末尾或空白区域。上海大学团队提出的注意力去偏方法，用位置趋势拟合+padding抑制，在不改结构、不重训的前提下纠正偏差，剪枝更稳，在“信息更少”时反而更可靠；可视化显示模型保留的区域更贴近语义要点。再配合PACT这类聚类合并策略，以键向量度量距离、比例注意力缓解信息损失，在LLaVA-OneVision-7B上可减少约50%视觉token而性能几乎不降，真正把“画眼睛的笔墨”集中用在刀刃上，也让移动端与边缘端的“艺术家之眼”成为现实。表达美，则需要可控生成与风格语言。VLM把文本意图与视觉潜空间对齐，支持风格迁移、图像编辑与概念探索；数据艺术家已用大规模数据与生成模型把“记忆”转译为动态色形，证明人机共创能拓展审美疆界。更像人的，还在“如何看”的过程。AdaptiveNN让模型像眼球扫视般主动寻找关键信息，信息足够就“收工”，在保持准确的同时把推理效率提升到28倍量级；用于具身场景也能提升4.4–5.9倍效率。这种由粗到精的序贯注视，正是艺术家观察的日常。当然，“艺术家之眼”也会带来“美学偏见”：过度追求“漂亮”，压抑负面情绪与反美学表达，甚至呈现文化倾斜。解决之道包括去偏的注意力与表征、对比学习抑制不当偏差、精心策展的数据与允许“非完美”的目标函数，让AI不仅会美化，也能如实与批判。所以，答案是可以——而且正在发生。但真正的“眼”，不只在网路与算子，更在能容纳复杂情感与多样价值的系统目标之中。也许更动人的问题是：当我们与AI共享这一双眼，艺术将如何改变我们看世界的方式？

AI的“走神”，有时反而是种高效的捷径吗？

当人类走神时，往往是注意力在噪声与关键信息之间瞬间做了“错误切换”。可在机器世界里，“会不会走神”却可能决定一台AI是耗电的蠢功夫，还是高效的聪明劲。关键不在于走神本身，而在于它是无意识的偏离，还是有意识的取舍。先把“走神”拆清楚。无意识的走神，是模型被结构性偏见牵着走：视觉—语言模型里就有典型的“位置偏置”，语言到视觉的注意力会随着序列位置增大，被动偏爱“后面的token”，甚至把图像下缘或padding空白当成重点；还有“attention sink”，空白的pad区域反而吸走注意力。这些偏差一旦被拿来排序剪枝，会被进一步放大，保留了没用的背景，丢掉关键目标。更糟的是，当图像被反事实地微调（比如四条纹的“阿迪达斯样式”或五条腿的狗）时，许多模型仍按记忆作答，数数准确率骤降到约17%，就算反复提醒“请只看图像细节”，平均也只提高两个点。这不是聪明，而是“习惯性的走神”。有意识的“选择性忽略”则完全不同，它像系统化的“聪明偷懒”。一类方法直接调度注意力，让模型先把无关噪声屏蔽掉：有研究通过提示词层面的“系统2注意力”把模型从直觉式快反应切换到审慎模式，不改参数，仅靠Prompt就把大型模型的准确率大幅拉升，说明“先删干扰，再思考”是高效捷径。另一类方法从计算层面节流：稀疏注意力让模型“挑重点看”，在性能基本持平的前提下把计算量砍到四分之一左右；视觉token剪枝与合并（例如用隐藏态范数、键/查询信息做重要性度量，再用距离限制的密度聚类合并token），能把视觉token减少约50%，几乎不掉点，速度与显存压力立竿见影。还有团队提出“跳过冗余注意力层”，用相邻层注意力分布的KL散度度量冗余，训练提速约30%，稳定性不丢。真正精妙的，是在“聪明忽略”之前，先把“走偏的注意力”拉直。研究者发现，上述位置偏置与padding吸附并非随机噪声，而是稳定趋势，于是拟合出位置偏置曲线，对原始attention做去偏修正，并在剪枝阶段显式压制padding token的影响。无需重训、即插即用，把这一步套到多种基于注意力的剪枝法上，在多款VLM、十余个图像/视频基准里普遍带来稳健提升，尤其在极限token预算下更显著。可视化结果也很直观：有了去偏，模型保留的区域从无关的下缘/空白回到了目标与细节，这才是“把注意力花在刀刃上”。效率不只来自“少看”，还来自“何时该慢想”。越来越多系统引入元认知调度：当任务复杂、时间紧或置信度低时，才从“系统1”的快路径切换到“系统2”的深度推理；在对话变长出现“认知疲劳”时，监测注意力衰减与偏离信号，自动重申原指令，把对话拉回轨道。这种“按需深思”的机制，才让省下来的算力真正换成可靠性，而非坍缩成幻觉。那么，AI的“走神”能不能成为捷径？答案是：有边界、有节制、有监控的“有意识忽略”可以，盲目的偏见与疲劳不行。工程上，这意味着几条实践准则：在前端做去偏与防沉（位置曲线校正、padding抑制）；在中端做选看与合并（稀疏注意力、重要性度量、聚类合并、比例注意力校正）；在后端做调度与回正（元认知控制、置信度门控、双阶段剪枝与统一采样）。当这些齿轮咬合，移动端与边缘场景就能在更少的信息、更低的成本下维持更高的可靠性。也许，智能的本质从来不是“看得多”，而是“看得对”。真正强大的AI，不是永不走神，而是懂得何时果断忽略、何时耐心深思，并在每一次取舍之后把新知沉淀为直觉。当我们把“注意力”当作最宝贵的资源去经营，效率与真相，才会在同一条路径上越走越近。

新知 - 大圆镜｜AI注意力惊现偏见，简单修正竟提升剪枝可靠性？

对抗知识焦虑，从看懂这条开始

App 下载

一位“健忘”的侦探

想象一位才华横溢的侦探，他能从纷繁复杂的线索中洞察真相。但他有一个奇怪的癖好：无论案情如何，他总是更关注最后进入现场的人，或是对房间角落里无意义的空白墙壁格外上心。这样的偏见，无疑会让他错失关键信息，甚至得出错误的结论。这听起来荒谬，但这正是当前许多顶尖人工智能（AI）模型正在上演的真实一幕。它们的核心机制——注意力（Attention），被发现存在着类似的结构性偏置，正在悄悄误导着它们的判断。

被揭开的“注意力”幻觉

长期以来，我们理所当然地认为，AI的“注意力”就等同于“重要性”。模型关注哪里，就说明哪里是关键。然而，上海大学的曾丹团队联合南开大学的研究人员，通过一项系统性研究，揭示了这个普遍信念背后的“幻觉”。

在最新的研究中，他们发现，尤其是在处理图像和语言的多模态大模型（Vision-Language Models, VLMs）中，注意力机制并非一个纯粹的、客观的重要性指标。它像那位有偏见的侦探一样，受到两种与生俱来的结构性偏见影响：

位置偏置（Recency Bias）：模型有一种强烈的倾向，会给予序列中更靠后的视觉信息块（token）更高的注意力。在处理一张图片时，这意味着模型会不自觉地“更关注”图像的下半部分，哪怕真正的关键物体——比如一只猫——在图像的顶端。

Padding“注意陷阱”（Attention Sink）：为了让不同尺寸的图片能被模型统一处理，通常需要进行“填充”（padding），即在图片边缘添加无意义的空白区域。然而，模型非但没有忽略这些空白，反而常常被它们“吸引”，分配了异常高的注意力，形成了一个“注意陷阱”，错误地认为这些空白区域很重要。

这些偏见在模型进行“剪枝”时会造成灾难性后果。为了让庞大的AI模型能在手机、汽车等设备上高效运行，研究者们会采用“视觉剪枝”技术，即丢弃不重要的视觉信息。但如果判断“重要性”的标尺（注意力）本身就是歪的，模型最终可能丢弃了关键的“猫”，却保留了无用的“草地”和“空白边框”。

拨开迷雾：无需重训的“去偏”新思路

面对这一困境，曾丹团队并未选择推倒重来，设计复杂的全新算法或对模型进行成本高昂的重新训练。他们另辟蹊径，提出了一种极为精巧、优雅的解决方案——注意力去偏（Attention Debiasing）。

他们的核心洞察是：这些偏见虽然存在，但并非随机噪声，而是呈现出稳定、可预测的整体趋势。基于此，他们的方法分为两步：

修正位置偏见：他们通过数学方法，拟合出一条能够反映“位置偏置”有多强的曲线。然后，在模型做出判断前，从原始的注意力分数中减去这条偏置曲线的影响。这就像给那位侦探戴上了一副特制的眼镜，可以自动校正他“只看最后”的习惯。
规避填充陷阱：在剪枝排序阶段，显式地抑制“填充”区域的注意力分数，确保这些无意义的空白区域不会进入“重要信息”的候选名单。

最关键的是，整个过程无需重新训练模型，可以作为一个“即插即用”的模块，无缝集成到现有的各种主流剪枝方法中，几乎没有增加任何计算成本。

性能跃升：剪枝更高效，理解更精准

这一看似简单的修正，却带来了惊人的效果。该团队将他们的“去偏”模块应用在6种主流的剪枝方法上，并在10个图像理解基准和3个视频理解基准上进行了全面测试，覆盖了LLaVA-7B/13B等多种行业领先模型。

实验结果显示，在几乎所有情况下，经过“去偏”处理的模型都获得了一致且稳定的性能提升。尤其是在剪枝更激进、信息更受限的“极限”条件下，提升效果尤为显著。这证明，校正了偏见后，模型在仅有少量信息的情况下，也能做出更可靠、更精准的判断。

通过可视化分析，对比更加直观。未经修正的剪枝模型，保留的视觉区域杂乱地分布在图像下方或边缘；而经过“去偏”修正后，模型保留的视觉区域则精准地聚焦在与问题相关的核心物体和关键细节上。这不仅提升了模型的性能，更重要的是，极大地增强了模型决策的可解释性——我们终于能更清晰地看到，AI是基于正确的信息在做判断。

未来已来：通向可靠高效的通用AI

这项研究的意义远不止于提升模型跑分。它为当前AI领域最核心的挑战之一——如何将庞大而强大的模型高效、可靠地部署到现实世界——提供了全新的思路。当AI需要进入我们的手机、智能家居和自动驾驶汽车时，它必须变得更轻、更快，同时不能牺牲可靠性。

曾丹团队的工作证明，我们不能盲目地信任AI的内部机制。深入理解并修正其固有的结构性缺陷，是通往真正可靠、可信AI的必经之路。它提醒我们，真正的智能，不仅在于拥有强大的能力，更在于能清醒地认识并校正自身的偏见。这或许是机器向人类智慧学习过程中，最重要的一课。