AI的下一个“文字”会是什么？

下一个“文字”，会是可执行的功能性Token：既是语言里的动词，也是模型内部的神经字节码。它不只画线/标注，还会扩展成跨模态“动词表”—— 驱动机械手，触发检索， / 操作外部记忆， / 操控UI，音频里 / 直达算子。同一枚词，既表达意图，也切换子策略与隐状态。它重要在于把长链推理压缩成稀疏、可审计的动作流，显著降低延迟与上下文开销；技能可组合、可移植，像API一样版本化与权限管控。可以预见的生态是：厂商沉淀跨模型通用“op-code”，企业按任务私有化Token；训练用示例轨迹+稀疏奖励+Token级信用分配（如LA-GRPO）稳定收敛。难点也清晰：如何自动发现最小而充分的“动词表”，防止Token滥用与奖励刷分；怎样为每个Token建立安全类型与速率限制；以及跨模型对齐其语义。若这些工程与治理问题跑通，功能性Token将成为AI的通用新文字——一句话，不只会说，还会做与记。

AI学会“脑补”，我们呢？

AI 的“脑补”，其实是把一串视觉操作压成几个可调用的“宏指令”。它更快、更省算，但仍是统计学的捷径：在分布外场景会选错宏操作，注意力热区也不等于因果证据。LA-GRPO缓解了滥用与梯度稀释，却不保证每一步都可靠，因此需要对 token 轨迹做干预实验与反事实检验。我们要学的不是跟它拼细节，而是掌握“动作化提问与验证”。让模型给出功能 token 轨迹和对应证据，限制 token 预算，要求关键帧或区域对齐；用清单化核查（若去掉某 token 还能答对吗？换图局部是否翻案？）把“脑补”关进可审计的流程。接下来，人类价值会从标注搬砖转向三件事：设计动作语法与奖惩，构建可解释评测与回放工具，做最后一跳的现实校准（安全、伦理、边界条件）。AI 会更会“想”，而我们要更会“让它想对，并为此负责”。

用“暗号”作画是种什么体验？

像给画师打手势口令。你丢给模型几个“暗号”词，它不生成中间图，也不调外部工具，却在脑内补线、框选、编号：连A到B，圈住左上角，给目标打标。屏幕上只见简短推理和最终答案，响应更快、话更少，但步骤一清二楚，因为这些暗号会作为可读的操作轨迹被保留下来。之所以顺手，是因为每个暗号其实是注意力的锚点：一发出，跨模态注意就收缩到该区域或关系上，减少无关思考的噪声；强化学习又约束它“少而准”，只在关键处落子。因此体验像“在脑中作画”：轻，不丢信息密度；稳，可复盘；扩展也简单，往词表里添一个新暗号，就像给工具箱加一把新刀。但它也有边界。暗号不会生新像素，遇到低分辨率、遮挡或需要精细测量的情形，只能在已有特征上“挪镜头”，不如外部放大与裁剪可靠；暗号过粗会歧义，过细又稀疏难学，词表设计要在可解释性、覆盖度与训练稳定间取平衡。

新知 - 大圆镜｜一个词元统一两种视觉推理，效率翻5倍

Q: 用“暗号”作画是种什么体验？

像给画师打手势口令。你丢给模型几个“暗号”词，它不生成中间图，也不调外部工具，却在脑内补线、框选、编号： 连A到B， 圈住左上角， 给目标打标。屏幕上只见简短推理和最终答案，响应更快、话更少，但步骤一清二楚，因为这些暗号会作为可读的操作轨迹被保留下来。 之所以顺手，是因为每个暗号其实是注意力的锚点：一发出，跨模态注意就收缩到该区域或关系上，减少无关思考的噪声；强化学习又约束它“少而准”，只在关键处落子。因此体验像“在脑中作画”：轻，不丢信息密度；稳，可复盘；扩展也简单，往词表里添一个新暗号，就像给工具箱加一把新刀。 但它也有边界。暗号不会生新像素，遇到低分辨率、遮挡或需要精细测量的情形，只能在已有特征上“挪镜头”，不如外部放大与裁剪可靠；暗号过粗会歧义，过细又稀疏难学，词表设计要在可解释性、覆盖度与训练稳定间取平衡。

对抗知识焦虑，从看懂这条开始

App 下载

三个老方案，各自卡住了脖子

在ATLAS出现之前，AI视觉推理有三条走不通的死胡同：

第一条是「统一模型」——让AI显式生成中间图像，比如画辅助线、标重点，思路直观但太费资源，生成一张中间图的算力够普通推理跑十次；第二条是「代理式推理」——让AI调用外部工具，比如专门的画线器、计数器，每一步都能追踪，但工具间的切换像在不同软件间来回切窗口，慢还容易出错；第三条是「隐式推理」——让AI在内部悄悄完成思考，不生成任何可见步骤，速度快但像个黑盒子，你永远不知道它是蒙对的还是真懂了。

这三个方案各有各的死穴：要么慢，要么复杂，要么不可信。AI要处理复杂的视觉推理，比如解几何题、分析多视角图像，总得在「效率」「可解释性」「成本」里三选二，直到ATLAS把这三个选项捏成了一个。

一个词元，既是操作也是思考

你可以把它想象成给AI的草稿纸加了快捷键：当AI需要圈出图像里的关键区域时，不用生成整幅标注图，只要输出<|Shape|>，它的内部就会自动激活对应的视觉操作，把注意力集中到目标区域；当需要画辅助线时，输出<|Line|>，内部就会完成几何关系的推导。这个词元既是AI告诉我们「我正在做什么」的操作指令，也是它在隐空间里完成思考的推理单元——一句话，它让AI的「操作」和「思考」变成了同一个动作。

更聪明的是，这些词元不需要额外的图像监督，就像普通的词一样，通过「预测下一个词」的标准训练就能学会。研究团队先在17.8万条视觉推理数据上做监督微调，教AI在合适的时机用这些词元；再用强化学习优化，答对题且合理用词元就给奖励，乱用词元或者输出太长就惩罚，避免AI为了刷奖励乱凑词。

LA-GRPO：给关键词元焊上「梯度锚点」

但新问题又来了：在一整段推理里，功能性词元只占2%左右，大部分还是普通的文本词。用传统的强化学习训练时，奖励信号会被大量普通词稀释，就像在一大桶水里滴一滴墨水，关键词元根本学不到足够的信号——这就是「梯度稀释」问题。

团队专门设计了「隐锚定GRPO（LA-GRPO）」来解决这个问题：在训练时给功能性词元单独加一个「锚点」，如果某条推理答对了，而且某个词元起到了关键作用，就专门强化这个词元的生成概率。相当于老师改作业时，不仅看最终答案对不对，还会特意给那些关键的解题步骤打个五角星，告诉学生「这一步才是重点」。

实验结果很直接：在BLINK视觉推理基准上，基础模型的准确率只有22.8%，用了ATLAS-SFT后升到46%，加上LA-GRPO直接冲到51.3%；同时推理延迟从18.83秒降到3.8秒，显存占用也砍了近一半。更重要的是，注意力可视化显示，当AI输出<|Shape|>时，它的注意力真的会集中到要圈的区域，输出<|Line|>时会聚焦在几何关键点——这些词元不是摆样子的符号，是真的在帮AI思考。

我们总觉得AI要变聪明，就得堆参数、加模块、搞复杂的架构，但ATLAS给了一个反直觉的答案：有时候做减法反而更有效——把复杂的视觉操作压缩成一个词元，把割裂的操作和思考合并成一个动作，把冗余的流程砍掉只留最核心的逻辑。

一个词元即是操作，也是思考。这句话不仅是ATLAS的核心，更像是给多模态AI指了一条新的路：未来的AI不需要像人类一样「先想再做」，它可以把「想」和「做」变成同一个瞬间。当我们还在纠结AI的思考能不能被理解时，ATLAS已经用一个简单的词元，让AI的思考本身就成了可以被看见的操作。

三个老方案，各自卡住了脖子

一个词元，既是操作也是思考

LA-GRPO：给关键词元焊上「梯度锚点」

评论