AI太安全，为何反被拉黑？

因为军方要的是“可用性与可控性”，而不是供应商的“道德否决权”。五角大楼的标准条款覆盖 Title 10（作战）与 Title 50（情报）的一切“合法用途”，以确保在突发场景、跨机构任务里不被TOS卡脖子。Anthropic把两条红线写死在技术与政策里，相当于把“能不能用”的最终开关交在厂商手里；一旦模型在关键时刻拒答、降级或远程改政策，任务风险与法律责任都落到政府头上，采办体系自然转向“条款对齐、行为可预期”的供应商。表面是“安全”，本质是“控制权”。军方要可审计、可追溯、可配置的安全阈值（含租户级策略、离线权重、持续可用SLA），而不是被嵌入式价值观永久绑定。把Anthropic列入供应链风险，也是博弈筹码；NSA仍以特殊权限用Mythos，说明问题不在能力，而在合规与主导权。只要厂商不给“政府侧旋钮”，再安全也会被视作“作战不可靠”。

没有App的手机，生活会怎样？

如果手机里不再有App，你的日常会更像与“私人秘书”对话：说一句“帮我定今晚国贸附近最便宜且能开发票的餐厅”，它会自动比价、下单、报销入账，并在你迟到时改签到位；出差时一句话搞定机酒、值机与打车，退款、售后、发票归档全在后台流转。屏幕从“应用网格”变成“待办与结果流”，通知也变成可追问的对话线程，老人小孩几乎零学习成本。代价也清晰：权力从App迁移到模型与操作系统，广告预算会转成“成交佣金”，商家必须为Agent开放“技能接口”否则被边缘化；而用户要交出更多上下文，隐私与锁定风险剧增。现实短期并不魔法——跨应用的深链路目前成功率大约两成，关键步骤仍需你点头确认；部分平台会以安全为由限制自动化，形成新的“平台博弈”。要让这条路跑通，系统级可撤销授权、全链路可审计日志、端侧优先处理与分级记忆将成为标配，否则便利与失控只隔一层薄膜。

AI的口头禅，是从哪里学的？

AI的口头禅，多半不是“设计出来”的，而是被训练管线“喂”出来的：语料里的高频句式、标注员的高分偏好、系统提示的固定模板，会被SFT与RLHF当成可复制的高分捷径。“礼貌而不置可否”“先讲安全合规”的铺垫久而久之变成默认开场。聊天日志与合成数据回灌像回声室，少数口癖被过采样放大；解码在高温或低惩罚下更易复读这类低风险模板。口头禅还沿三条路径渗漏：产品侧的系统提示与安全中间件常预置整段语气——“作为一个AI模型……”多半出自这里；人格/风格奖励外溢把小圈层癖好扩散到全体用户，“哥布林”就是一次公开的外溢事故；而英语主语料的直译腔迁移到中文，又叠加出统一的“AI腔”。要淡化口头禅，行业在拧三只旋钮：数据上去重并降权模板句，加入反奖励样本；对齐上给奖励模型加反“打太极”正则、隔离人格权重，避免风格外溢；推理端用明确风格token与系统指令，配合降温和重复惩罚，让模型少走“安全套话”的捷径。

新知 - 大圆镜｜AI终于能“指着图像思考”，效率提7000倍

对抗知识焦虑，从看懂这条开始

App 下载

解决AI的“健忘症”：从“看得到”到“盯得住”

过去的多模态AI就像个记性不好的观察者：刚说“左边的猫在睡觉”，下一句就把右边的狗当成了那只猫——这就是行业里说的“引用缺口”：语言描述在推理链中会漂移，没法稳定指代同一个视觉对象。

你可以把这个问题类比成一群人讨论一张地图：有人说“东边的山”，有人说“靠海的山”，到最后没人能确定说的是同一座。而视觉原语，就是给AI递了一支能在地图上画圈的笔——它把点坐标和边界框当成和文字一样的“思考单元”，推理时边说边“指”：“我看到一只猫123,456,234,567>在睡觉，旁边的狗345,678,456,789>在玩球”。

这个设计直接把推理链和图像空间牢牢绑定，从根源上避免了“指东说西”的逻辑混乱。在计数任务中，它的准确率能达到89.2%，比GPT-5.4高出12.6个百分点；迷宫导航这类拓扑推理任务，准确率更是领先近17个百分点。

7056倍压缩：把图像“榨干”成关键信息

视觉原语能落地的核心，是极端的视觉Token压缩技术——这相当于把一本几百页的书，提炼成只有90个关键词的摘要，还不丢核心信息。

传统模型处理一张800×800的图片，会先切成几千个小方块（Token），每个方块都要占用计算资源。而DeepSeek的流程是：先用自研的视觉编码器把图像切成基础方块，再通过3×3空间合并把方块数量压缩到原来的1/9，最后用稀疏注意力机制只保留和推理相关的关键方块。最终一张图只需要约90个KV缓存条目，而Claude Sonnet 4.6需要870个，Gemini-3-Flash需要1100个，压缩比达到7056倍。

这种压缩不是简单的“丢信息”，而是精准的“留核心”：和推理无关的背景、冗余像素都被过滤，只留下能支撑计数、空间判断的关键坐标和边界框。直接结果就是推理延迟降低20%-30%，计算成本大幅下降，却能在空间推理任务上对标GPT-5.4。

当然，这项技术目前还有局限：它需要用户输入触发词才能启用视觉原语，还做不到自主判断何时该“指”；为了压缩Token，图像分辨率被限制，处理医学影像这类需要细粒度观察的场景时精度会打折扣。

从迷宫到财报：训练出“空间感”的AI

要让AI熟练用视觉原语思考，训练数据和任务设计得“对症下药”。团队没有用常见的合成数据，而是采集了近10万条真实图像的语音描述——让标注者用60-90秒口述图像细节，再转成文本，最终筛选出3.17万条高质量数据，生成了4000多万训练样本。

他们设计的训练任务像一场“空间思维闯关游戏”：从基础的计数，到判断“猫在狗的左边还是上边”的空间推理，再到走迷宫、追路径的拓扑推理。比如迷宫导航任务，模型要在完全陌生的迷宫布局里，用坐标点标记出从入口到出口的路径，考验的是对空间连通性的理解。

这种训练让AI的“空间感”不再是靠统计规律蒙答案，而是真正建立起视觉对象和语言描述的对应关系。在处理长文档时，这项技术还能把表格、图表转成压缩的视觉Token，比传统文本处理效率高10倍以上，解码精度能达到97%。

当我们讨论AI的“理解能力”时，总习惯盯着它能不能说出复杂的句子，能不能生成逼真的图片，却常常忽略最基础的一点：它能不能像人一样，把“看到的”和“想到的”精准绑定。

视觉原语的意义，不是让AI“看得更清楚”，而是让它“想得更明白”——用最朴素的坐标和边界框，给AI的推理链钉上了不会漂移的锚点。未来的AI不需要记住所有像素，但必须能精准抓住每个关键信息的位置。

看得清是基础，盯得住才是智能。

解决AI的“健忘症”：从“看得到”到“盯得住”

7056倍压缩：把图像“榨干”成关键信息

从迷宫到财报：训练出“空间感”的AI

评论