AI也开始分“左右脑”了吗？

要说“左右脑”，更像“周边分工、中央合流”。Uni‑X把最前和最后几层按模态分开，只在中间共享核心，直指图像token高条件熵引发的浅/深层梯度冲突（浅深层梯度余弦趋负，中层接近零）。好处是优化更稳，还把注意力计算从(n_t+n_v)^2降为n_t^2+n_v^2，长序列更省算。这不是解剖学的左右侧化，而是工程上的“功能分区”。同类趋势在MoE的模态级路由、视频模型的跨任务桥接，以及对抗训练里的正交投影/自适应梯度插值中同步出现：用结构或梯度几何隔离干扰，再在共享层对齐语义。常见收益是小模型逼近大模型、吞吐上限抬高。隐患也在：分得过头会损伤跨模态共享与检索一致性，分得不够又压不住冲突。接下来值得看三件事：分离层比例的可迁移性；把浅分支当双塔做高效检索；以及让分叉直接学Tokenizer/Detokenizer，迈向不依赖VQ的端到端像素级统一。

AI为什么会被图片“看花眼”？

归根到底，是信息熵与优化几何在“作祟”。视觉序列的条件熵远高于自然语言，预测更难、依赖更长，放到一个全共享的Transformer里，浅层与深层要同时服务“低熵的语法化文本”和“高熵的空间化图像”，梯度方向彼此拉拽，余弦相似度甚至为负，导致特征对齐与关系绑定变脆。一到多物体、遮挡、细粒度属性或轻微分布漂移，注意力就开始摇摆，模型便“看花眼”。工程链路又在放大这种脆弱性：先验的VQ/压缩把图像变成离散token，量化噪声与码本坍缩抹掉边界纹理；数据里充满“捷径”（背景、色调、水印、常见布局），模型学会猜而非看；缩放、裁剪、JPEG伪影与微小对抗扰动则沿着已冲突的梯度方向放大误差。结果不是AI眼拙，而是高熵信号、冲突梯度与不可靠线索把它同时拽向不同的答案。

AI的“感觉”和“思考”也分家吗？

答案是：在工程上“分家”，在语义上“合流”。 Uni-X的数据给了清晰证据：把浅层与末层按模态分开，能显著减弱梯度冲突（视觉序列条件熵远高于文本，强行同训会拉扯参数），同时把中间层用作共享“思考中枢”。结果是，小体量也能打出大模型水准（如GenEval 82分），而计算复杂度从(lv+lt)^2拆成lv^2+lt^2，吞吐上限更高——这正是“感觉分工、思考共用”的收益。但这不是彻底割裂。真正的推理需要在中层把模态对齐并交换证据；过度分离会丢跨模态细节（比如OCR的字形—语义绑定）。因此，行业正走“弹性分家”的路：两端专门化，中段合流，再辅以动态路由/专家门控、跨任务桥接标记（类似视频-几何到语言的Bridge Tokens），在任务与噪声之间自适应调度。即便未来拿掉VQ、做端到端pixel-to-token，早期块大概率仍保持专门化，只是边界更柔软。

新知 - 大圆镜｜3B参数干赢7B，多模态AI靠分家解决内斗

大圆镜

内容由AI生成，思考得你完成

App Store 下载 Android 下载

你有没有见过这样的AI：能写通顺的文案，却画不出匹配的图；能识别照片里的猫，却理解不了“猫在笑”的文字描述。这不是AI笨，是它的“大脑”里正在发生一场隐秘的内战——处理文字和处理图像的神经通路，在争抢同一个参数的控制权，结果谁都干不好。

就在2026年ICLR大会上，一支团队拿出的Uni-X模型，用最朴素的“分家”思路解决了这个问题：让文字和图像在模型的两头各走各的路，只在中间的“大脑皮层”汇合。结果，只有30亿参数的它，在图像生成测试里干赢了不少70亿参数的前辈。这背后，藏着多模态AI卡了3年的核心死结。

梯度冲突：AI大脑里的拔河比赛

要理解这场内战，得先搞懂梯度冲突——你可以把它想象成两个教练同时教一个运动员：一个让他练短跑爆发力，一个让他练马拉松耐力，运动员的肌肉在两种完全相反的训练指令下，只会越练越废。

在多模态AI里，文字和图像就是这两个“教练”。文字是低熵的：每个字的出现都有明确的语法逻辑，比如“我吃饭”不能说成“饭吃我”，模型只需要学习这种有序的规律。但图像是高熵的：一张512×512的图会被转换成1024个视觉Token，每个Token的出现几乎没有固定逻辑，模型得学习像素间复杂的空间依赖——这难度相当于让写散文的人突然去解量子物理题。

当用一个完全共享参数的Transformer同时处理两者时，就会出现诡异的梯度拔河：

浅层网络要学图像的空间特征，梯度会逼着参数往捕捉细节的方向走；但同时它还要学文字的语法，梯度又要把参数往规整逻辑的方向拉。
深层网络要做图像生成的最终预测，梯度要求参数记住像素的组合规律；但做文字生成时，梯度又要求它遵守语义的连贯性。

研究者用余弦相似度量化了这种冲突：浅层和深层的梯度方向相似度不到0.3，相当于两个完全相反的向量在死拉硬拽。而Uni-X做的，就是把这两个“教练”的训练场彻底分开。

Uni-X：两头分家，中间汇合的X型大脑

Uni-X的解决思路说穿了很简单：让文字和图像在模型的浅层和深层各走各的路，只在中间层共享参数——就像一个X形的路口，两头是专属车道，中间是公共换乘站。

你可以把这个过程拆成三步：

浅层分离：输入的图像Token和文字Token，先分别进入视觉专属分支和文字专属分支。视觉分支专门练“看细节”，文字分支专门练“懂语法”，两者的参数完全独立，再也不会互相干扰。

中间共享：当特征被处理到足够抽象的层级——比如图像已经变成“猫”“沙发”这样的语义概念，文字也变成“猫在沙发上”的语义逻辑——再进入共享层。这时候两者的特征已经是同一维度的“语义语言”，融合起来自然流畅，不会再有梯度冲突。

深层分离：最后要输出结果时，再回到专属分支。图像生成分支负责把语义转换成像素Token，文字生成分支负责把语义转换成自然语言，各自专注自己的任务。

这种设计不止解决了冲突，还偷偷提升了效率：原本共享Transformer的自注意力计算复杂度是O((图像Token数+文字Token数)²)，现在变成了O(图像Token数² + 文字Token数²)，相当于把“两个人挤一条路”变成“两个人走两条路”，速度快了近30%。

实验数据最能说明问题：在相同的训练预算下，3B参数的Uni-X在GenEval图像生成基准上拿到了82分，超过了不少7B参数的模型；在零样本图像编辑任务中，只用9万张数据微调，性能就追平了用了更多数据的Bagel模型。

不是革命，是对规律的尊重

很多人会觉得，Uni-X的设计不算“颠覆性创新”——不就是加了两个分支吗？但恰恰是这种“不炫技”的思路，戳中了多模态AI最核心的问题：我们之前一直在强迫AI用同一套逻辑处理完全不同的东西，却忘了尊重不同模态的本质差异。

之前的解决方案，要么是给模型加更多的专家分支，结果模型变得越来越复杂，训练成本指数级上升；要么是用更复杂的量化方法，试图把图像“掰成”文字的样子，结果丢失了大量视觉信息。而Uni-X的聪明之处，在于它没有试图“改造”模态，而是“顺应”模态：

既然文字和图像的底层规律不一样，那就分开处理；
既然它们的高层语义可以统一，那就共享融合。

当然，Uni-X也不是完美的。它目前还依赖VQGAN把图像转换成Token，相当于中间多了一个“翻译官”，会损失一部分图像细节。团队的下一步计划，就是去掉这个翻译官，让模型直接处理原始像素——真正实现从像素到文字、从文字到像素的端到端统一。

当我们谈论AI的“智能”时，总习惯追求更复杂的模型、更多的参数、更大的数据集，却常常忽略最基础的逻辑：不同的信息，本来就该用不同的方式处理。

Uni-X的成功，本质上是一次“减法胜利”——它没有给AI的大脑加更多东西，只是把原本打架的通路分开，让每个部分都能专注做自己擅长的事。这就像一个混乱的公司，不是靠招更多人解决问题，而是靠理清部门职责，让专业的人做专业的事。

尊重差异，比强行统一更接近智能。未来的多模态AI，或许不会是一个无所不能的“超级大脑”，而是一个能让不同模态各展所长、和谐共生的“协作网络”——毕竟，人类的智能，本来就是眼睛、耳朵、嘴巴各司其职又互相配合的结果。

梯度冲突：AI大脑里的拔河比赛

Uni-X：两头分家，中间汇合的X型大脑

不是革命，是对规律的尊重

评论