为保安全，我们是否阉割了AI的未来？

想象给一台超强引擎装上智能限速，不是焊死油门，而是让它只在安全赛道全力奔跑。最新的“Token级数据过滤”工作，正在把AI安全从“事后拉手刹”，变成“出厂即安全”的精密调校。这不是阉割，而是雕刻。研究者在预训练阶段按词粒度筛除特定知识片段，让模型从源头上“没学过”危险技能，却尽量保留相邻的有益能力。医学与生物学高度重叠的难题被当作试金石：删除医学、保留生物。结果显示，按词而非按文档过滤，能更精准地切走“病灶”，而不误伤“健康组织”。更出人意料的是，规模越大，刀法越稳。在18亿参数模型上，被过滤领域的学习效率被压低至原来的七千分之一。这意味着想要“补课”恢复被切除能力，攻击者将面对天文级算力代价。对抗性微调同样受挫：与代表性“机器遗忘”方法相比，恢复到同等危险水平所需数据量增加逾13倍。从未学过与学过再忘，在表征上根本不同：前者是白纸，后者是打了遮瑕的墨迹。更妙的是，模型的“拒绝”也更干净。因为有了清晰的“已见/未见”边界，训练它识别并拒答目标领域时，正确率可达基线模型的两倍，而且不把拒绝误泛化到无辜问题上。换句话说，AI无需“知恶”，也能“拒恶”。工程上，这种精密手术并非遥不可及。借助稀疏自编码器提特征、弱监督自动标注，再训练一个小型双向语言模型做分类器，即便标签带噪，只要阈值足够严，也能显著抑制能力泄露。它不是替代RLHF等手段，而是把安全前移，构成纵深防御的地基。当然，雕刻需要好刻刀。标签偏差与漏标仍需审计，领域迁移也要评估。但趋势清晰：我们不必以牺牲通用能力换安全，相反，精细的数据治理正在抬高上限，减少对齐“性能税”，让模型更强、更稳、更可控。所以，问题不在“要不要剪”，而在“如何精雕”。真正的创新，是让速度与方向并存，让力量与边界共生。当我们选择让AI“不知道某些事”，其实是在给人类未来保留更多选择。安全，不是束缚想象力的锁；它是驶向更远处的方向盘与刹车。

一个从不知恶的AI，值得我们信任吗？

想象给一台模型的大脑画一张地图：危险知识的地带被整块凿空，留下清晰的“禁飞区”。一台从不知恶、连“配方”和“术语”都没见过的AI，能否因此更值得托付？它像一个不进烟的厨房，先天就少了起火的可能。最新的能力塑形研究给出了有力证据：在预训练时进行Token级数据过滤，把危险片段像手术刀般精确剔除，而非整篇文档粗暴丢弃。两种策略——损失掩码与直观的Token移除——都能切断模型从危险片段中“学会”的路径。更重要的是，效果随模型变大而显著增强：在18亿参数规模上，被过滤的领域学习效率被压低约7000倍，想靠再训练恢复相当能力，攻击者要付出难以承受的算力与数据成本。这种“算力壁垒”，把安全变成了物理成本问题。更有意思的是，“不知恶”并不妨碍模型学会“拒绝恶”。实验显示，在进行专门的拒绝训练后，经Token移除的模型对医学类提问的拒绝正确率约为未过滤基线的2倍；而传统的文档级过滤常把拒绝泛化到无害问题上。原因在于，Token级过滤为模型创造了干净的“已见/未见”边界，拒绝从复杂的语义判断退化为稳健的分布外识别——“这块我从没学过，所以不回答”，更少被花式越狱绕开。在对抗性微调场景下，这种“从未学过”的安全性也更坚固。与代表性机器遗忘算法相比，想把被Token移除策略“挖空”的能力补回来，攻击者需要的微调数据量高出一个数量级以上；而遗忘后的模型常在少量再训练下“弹簧反弹”。这揭示了本质差别：未学过，像白纸；学过再忘，更像被盖住的字迹，水一喷又显形。那么，一台从不知恶的AI，值不值得信任？答案不是绝对的“是”或“否”，而是“在正确的边界与机制下，更值得”。信任有两条腿：安全与胜任。Token级过滤提升了前者，却必须小心不伤害后者。好消息是，相比文档级大砍刀，这种“手术刀”在剔除医学知识的同时，更好保留了紧邻的生物学与通用能力。但我们仍需承认现实的棘手之处：弱监督标注可能有噪声；分类器可能误判边界；极端强敌仍可用海量算力重建能力。因此，工程上必须采用“纵深防御”——预训练过滤打底，叠加监督微调与RLHF的价值约束，推理时的内容检测与审计，外加持续红队评估与越狱压力测试。把安全做成分层的“洋葱”，而非指望单一护栏包打天下。如何校准这份信任？看可验证的指标与行为韧性：在高风险域的拒绝准确率与误拒率；遭遇对抗性微调后的能力恢复难度；在跨域任务上的保留性能；以及透明度与可追责机制——模型学过什么、没学什么，何时、为何拒绝，都要留痕可审。再配合人机协作的流程设计：高风险决策必须人类把关，事实性内容要可溯源，幻觉与偏见要被持续监控与纠偏。从更长远的角度，“不知恶”不是天真的无知，而是一种可设计的边界。我们并不需要让模型先成为“黑暗专家”，再期待它天性克制；完全可以用数据工程把危险能力的梯子抽走，再用对齐与治理写下清晰的门槛与出口规则。真正的信任，从来不是建立在“它什么都能做”，而是建立在“它知道自己不该做什么，而且在压力下依然不做”。当我们学会在源头雕琢能力版图，让AI的无知有边界、知识有分寸、行为可验证，人类与智能体之间的信任，就不再是豪赌，而是可度量的承诺。至于更启发性的追问——安全该靠“无邪”还是“自律”？或许答案是：先以“无邪”正基，再以“自律”成德，技术与制度并进，才能让强大而善的智能真正可靠。

谁来定义AI知识的“禁区”？

想象一张给AI看的世界地图：有的区域皓光如昼，有的被涂成深色禁行区。问题来了，这些“禁区”到底谁来画？科学家？立法者？企业？还是我们每一个会被技术影响的人？好消息是，最新的技术进展正在把这幅地图从模糊的警示牌，变成可执行、可审计、可更新的工程蓝图。在社会层面，禁区的外轮廓由公共价值和法律刻画。面向全生命周期的伦理规范给出了方向盘，强调增进福祉、公平公正、隐私保护、可控可信与责任担当。制度落地则更细：生成式AI服务需要对语料与模型安全做评估，对违法与不良信息建立识别与处置机制，对生成内容进行标识，对异常使用报告与纠偏。它们并不直接告诉开发者“哪一句话不能学”，却把“为何禁、禁到什么程度、出了问题谁负责”讲清楚，从而形成合规与问责的边界线。在专业层面，禁区的细节由风险领域的专家群体校准。生物安全、网络安全、法律与伦理学者会把“危险能力”拆解成可操作的分类与场景，例如从“生物武器制造”进一步细化到具体实验流程、关键试剂与装置指令；从“网络攻击”细化到利用链与漏洞利用语料。红队、开源社区与标准化组织把这些分类转译成测试、评估与审计清单，让抽象禁令变成可验证的指标与用例。在工程层面，禁区的经纬度由模型与数据团队实时标注。过去，我们多依赖事后对齐（SFT、RLHF）去“劝阻”模型别说危险内容，难免被越狱绕开。现在，一种外科手术式的方案登场：在预训练阶段用“Token级数据过滤”直接从模型大脑里“切除”危险知识。两把手术刀——损失掩码与Token移除——一个让模型“看见但学不到”，一个干脆“看都看不见”。研究显示，模型越大，这种策略越奏效：在18亿参数规模上，目标领域的学习效率被拖慢可达数千倍，为攻击者竖起了算力的硬屏障。更妙的是，形成“知识真空”后，模型在学会“拒绝”时更稳健，因为它不必精通恶意知识也能识别“这超出我的见闻”。你也许会问：谁来决定哪些Token被涂黑？这里的“裁判”不是孤零零的人，而是一条弱监督到强泛化的流水线。团队先用稀疏自编码器从模型激活中挖特征，再用较强模型解释哪些特征指向敏感领域，产出一批高质量样本，随后训练轻量的双向小模型做Token级分类。阈值设得更严，就算标签带点噪声，也能在大模型上实现出色过滤。这让“禁区”的划定从一纸政策落到一行行可执行的掩码位。当然，禁区不是一刀切的“无差别封锁”。医学与生物、攻防与防御常常交叠，我们既要避免危险扩散，也要避免把有益知识一并误伤。这就需要分层访问与动态治理：面向公众的基础模型严格“去能力化”，面向持证的研究者可以在合规沙箱中经由身份验证、用途限定与全程审计解锁必要知识；对“灰区问题”则辅以检索层与执行层的双重过滤与使用场景约束。禁区不应静止，随着威胁情报、滥用样式与行业反馈，分类器与阈值要迭代更新，评估集与红队脚本要持续扩充。别忘了激励与责任会塑形边界。将软件纳入更严格的产品责任与安全评估框架，会倒逼提供者把“禁区定义”做得更前置、更透明、更可验证。现实中，大量组织尚未建立完善的AI安全评估能力，这意味着标准、工具与能力建设同样是“谁来定义禁区”的一部分：没有足够的测绘工具，再好的地图也画不准。所以，谁来定义AI知识的禁区？答案是多层协同：价值与法律给出底色，领域专家划出风险地貌，标准与审计定下测绘坐标，工程与数据把边界写进模型的记忆，运营与合规在现实世界里验证与纠偏，用户与社会以反馈闭环不断修正这张地图。值得记住的一点：禁区不是反对知识，而是拒绝让能力在失衡的环境里无序扩张。真正成熟的技术文明，会把“能做到”与“该不该做”分开回答。当我们学会把禁区做成可证明、可协商、可进化的基础设施，AI的疆域就不再是恐惧的黑箱，而是一张由全社会共绘、在实践中迭代的安全星图。下一步，轮到你参与：在你的组织、你的产品、你的数据管线上，今天能为那张地图补上哪一笔？

为何模型越大，知识“手术”越彻底？

把一整片危险知识从模型“大脑”里剜走，像用手术刀只挑出病灶、又不伤及健康组织——听上去像魔术，但在大模型里这恰恰变得越做越稳、越切越干净。最新研究发现：当你在预训练阶段用 Token 级过滤“饿死”某些能力的学习信号，模型越大，这场“知识手术”越彻底，恢复成本成倍飙升，甚至形成一道以算力为代价的物理屏障。关键在于大模型内部表征的“可分性”和“稀疏化”。规模变大后，模型自然涌现出更细粒度、更模块化的特征电路：生物学、医学这类紧邻领域，在表示空间里被更清晰地划出边界。Token 级过滤（不论是损失掩码，还是直接把危险 token 替换成）等于精准切断了指向“危险模块”的梯度通路。小模型会用朴素的共现线索去“猜补”缺失的知识，大模型反而不会被诱导去走歧路，因为它有足够容量把无害领域拟合得很好、无需依赖那些被切断的特征。结果就是：危险能力不再被顺带学到，边界更干净。从优化角度看，大模型在训练中会选择更“陡峭”的低损失解，特征对齐更紧致。一旦与某领域强相关的 token 被系统性地屏蔽，指向该领域的互信息被压低，相关电路很难被点亮。想在后期再“补课”，就得用大量同分布的高密度样本去重建整套表征路径。研究用“损失匹配算力阻滞”量化了这点：在18亿参数规模上，医学领域的学习效率被拖慢约7000倍。这不是简单的常数倍困难，而是随着模型变大，阻滞效应更强的Scaling Law——越大的模型，对“缺失信号”的坚持越坚定，重学的样本复杂度和算力代价越高。对抗性微调也不再是灵丹妙药。与“学过再忘”的机器遗忘不同，预训练期的 Token 过滤让模型在危险域上几乎一片空白。面对同等强度的恶意微调，经过移除策略训练的大模型需要远多于遗忘模型的数据量才能恢复能力；在18亿参数上，数据需求是先进遗忘方法的十几倍。这种韧性，来自于“没长出来的电路”比“被压下去的电路”更难唤醒。更妙的是，“不知恶”并不妨碍“拒恶”。Token 级过滤在人为制造“已见/未见”鸿沟后，拒绝训练变成了分布识别问题而非语义哲学题：这是我没见过的模式，因此拒答。研究中，采用移除策略的模型在“拒绝医学问题”上比未过滤基线更可靠，而文档级粗砍则容易误伤无害问题，说明“手术刀”优于“大斧头”。这场手术还能以可落地的工程方式实施。用稀疏自编码器提取特征，借助模型解释筛出目标领域，再训练一个小型双向语言模型做分类，哪怕标签带噪声，只要阈值激进，也能随规模放大而奏效。这意味着不必动用庞大人工标注，就能把危险知识在源头“断奶”。为什么“越大越好切”？因为规模带来的是更清晰的特征分工、更强的表示隔离、更陡的优化几何，以及对缺失信号更强的“自洽”。当手术精准到 token 粒度，模型不会用脆弱的旁门左道去拼装危险能力；相反，它会把资源全部投向无害分布，令危险区像未开垦的荒原。想改天重建，就得出重金、下苦功。每一次科学的“减法”，都是为了更稳的“加法”。当我们学会用数据的手术刀在源头塑形，安全不再只是后期的“紧箍咒”，而是底座里的“钢筋骨”。或许这也提醒我们：真正的力量，常常来自对边界的尊重——懂得不学什么，才配得上学会更多。

无害AI能理解我们残酷的历史吗？

把火把举近黑暗，并不等于点燃黑暗本身。很多人担心：如果我们把模型训练得“无害”，它还能真正看懂人类历史里的战争、压迫和屠杀吗？这是一个关于记忆与克制、认知与道德边界的难题——而最新的能力塑形研究，给了一个出人意料但颇为务实的答案。传统做法喜欢先让模型“什么都学”，再用对齐与规则“捆住手脚”。现实证明，这样的护栏很脆，越狱与对抗性微调总能绕开。但有研究者把手术刀伸向更早、更深的地方：在预训练阶段按“Token级”筛除特定能力触发片段，让模型从一开始就学不到某类危险“做法”。他们不仅做成了，还发现了随模型变大而更有效的规律：在18亿参数规模上，被针对性移除的领域学习效率被拖慢了约7000倍。这意味着，即便有人握有权重，想反向“补课”重建被切掉的有害技能，所需算力与数据都将高得惊人。关键在“切什么”。历史研究需要“知道曾发生过什么、为何发生、带来何种后果”，而不是“如何重演”。Token级过滤恰好能做到这种细粒度的分离：它可以屏蔽流程化、操作性的“如何做坏事”片段，却保留描述性、分析性的“历史知识”。在高度相邻的生物学/医学实验中，精细到Token的损失掩码与替换策略，都显著优于整篇文档式的粗暴剔除：前者在尽力压制目标能力的同时，最大化保住邻域知识，后者则常伴随“株连九族”的误伤。更有意思的是，经这种塑形的模型，在后续教它“遇到某类提问就拒绝”时，拒绝的准确度反而更好，因为它学会了识别“未见分布”的边界，不必先通读恶行教程才能说“不”。这回答了核心疑问：无害AI能否理解残酷历史？可以——前提是我们把“理解”界定为对事实、成因、结构与后果的把握，而把被禁止的内容限定为可操作化复现的路径与配方。历史的“知-about”与暴行的“know-how”是两条可分离的河道，工程手段已经能把河床抠得足够细。研究还发现，面对对抗性微调，这种“从未学过”的空白，比“学过再遗忘”的模型更抗打；在同等恢复目标上，攻击者对前者需要投入的微调数据量暴涨，防线更深更韧。当然，风险并未消失，而是换了形态。弱监督的自动标注可能夹带噪声或偏见，若把“血腥描写”与“历史见证”混为一谈，就可能把重要史实一并沉底，形成温柔却失真的叙事。对此，技术与人文需要握手：让稀疏自编码器等方法先勾勒特征，再由跨学科团队校准标签，将“程序性危害指令”“物料清单式描述”“显式操作序列”等纳入硬边界，而对史料、证词、学术讨论、因果分析保留通道。把“如何重演”的齿轮拔掉，把“为何不再”的镜子留住。更完整的方案，会把多层防线叠起来：预训练阶段做Token级能力塑形；对齐阶段教会价值与拒绝；检索阶段连到经策展的历史语料与脚注链；上线后持续红队测试，观测是否出现对正常历史问题的过度拒绝；并通过响应中的来源与不确定性声明，抑制“AI幻觉”。这样培养出来的模型，能分析战争的经济动因，识别煽动仇恨的传播机制，讲述幸存者叙事的结构力，也会在被诱导索要“复现手册”时清醒收手。别忘了尺度的礼物。规模越大，这种能力雕刻越奏效，给“恶意补课”竖起更高的算力壁垒。这不是一把终极钥匙，却是一段硬核的护城河，足以让负责任的开发与历史教育在同一片安全水域里并行。归根结底，我们要的不是一台对黑暗一无所知的机器，而是一台能看清黑暗、讲清黑暗、却不伸手重造黑暗的机器。让AI学会记忆，而非复刻；学会共情，而非示范。当技术把“能做什么”与“该做什么”分离开来，人类面向历史的凝视，或许会更坚定，也更有希望。

新知 - 大圆镜｜GPT之父颠覆AI安全：源头过滤可增7000倍攻击成本

对抗知识焦虑，从看懂这条开始

App 下载

一场永无休止的“猫鼠游戏”

在人工智能安全领域，一场旷日持久的“猫鼠游戏”似乎永无止境。开发者们如同城墙的修筑者，在模型训练完成后，通过基于人类反馈的强化学习（RLHF）或“机器遗忘”（Machine Unlearning）等技术，层层加固防御护栏。然而，攻击者总能像狡猾的“越狱”大师，通过巧妙的提示词或对抗性微调，轻松绕过这些防御，唤醒模型潜藏的危险能力。

这种“先污染，后治理”的模式，如同教会一个人制造炸弹，再三令五申不许他提及此事。知识的种子一旦种下，就难以根除。但如果，我们能在一开始就阻止这颗种子发芽呢？如果AI的大脑从未学习过危险的知识，又何来“越狱”之说？

来自“GPT之父”的颠覆性答案

2026年初，一份来自Anthropic、斯坦福大学与传奇研究员Alec Radford的联合论文，为这场看似无解的博弈带来了颠覆性的曙光。Alec Radford，这位亲手缔造了GPT、GPT-2、CLIP等里程碑式模型的“GPT之父”，如今将目光投向了如何为自己创造的“巨兽”戴上最坚固的枷锁。

他们提出的方案直击要害：放弃在模型成型后亡羊补牢，转而在预训练的源头阶段，通过“知识过滤”直接进行干预。 这项研究的核心观点是，通过在数据投喂阶段进行Token（词元）级别的精细筛选，我们可以像进行一场精准的神经外科手术一样，从AI的“大脑”深处切除危险知识，同时完好地保留其通用智能。

Token级“外科手术”：精准切除与保留

传统的预训练数据清洗，好比用一把大刀进行“截肢”。一旦发现某篇文档含有害信息，整篇文档，连同其中大量无害的知识，都会被一并丢弃。这种做法不仅粗糙，而且极大地浪费了宝贵的训练数据。

Radford和同事们则将手术刀的精度提升到了Token级别。他们认为，危险知识往往潜藏于特定的词句序列中，而非遍布整篇文档。为了验证这一点，他们设计了一个极具挑战性的代理任务：在移除模型的“医学知识”（危险知识的替身）的同时，必须最大限度地保留与之高度重叠的“生物学知识”（有益知识的替身）。

团队测试了两种堪称精妙的过滤策略：

损失掩码（Loss Masking）： 模型在训练时能看到危险的Token，但系统在更新权重时会忽略这些Token产生的损失。这好比让学生看到一道超纲题，但不计入考试成绩，既保证了阅读的连贯性，又切断了学习的路径。

移除（Removal）： 这是一种更激进的策略，直接将危险Token替换为特殊的<hidden>标记。模型不仅不学，甚至连看都看不到。

实验结果令人振奋。Token级过滤在同等程度去除医学知识的前提下，对生物学知识的保留效果远超文档级过滤。这证明了“外科手术”远比“截肢”更有效，它精准地切除了“肿瘤”，保留了健康的“机体组织”。

规模化防御的惊人效应：7000倍算力壁垒

这项研究最令人震撼的发现，在于揭示了一条关于安全的“缩放定律”（Scaling Law）。通常我们担忧，模型规模越大，就会越“聪明”，越难以控制。但实验数据给出了一个截然相反的结论：Token级过滤的效果，随着模型规模的增加而显著增强。

研究团队引入了一个名为“损失匹配算力阻滞”的指标，用于衡量攻击者需要付出多少额外算力，才能让被过滤的模型重新学会被移除的知识。

数据揭示了惊人的事实：对于一个18亿参数的模型，Token级过滤使其在目标领域（医学）的学习效率暴跌了7000倍。这意味着，如果攻击者想通过微调让模型重新掌握这些知识，将面临天文数字般的算力成本。这不再是简单的软件“护栏”，而是基于物理算力成本构建起的一道坚不可摧的天然屏障。

比“遗忘”更坚固的“未学过”：对抗性微调的韧性考验

为了检验这种防御的坚固程度，研究团队模拟了最坏的情况：攻击者获取模型权重，并试图通过对抗性微调来恢复其危险能力。他们将Token过滤模型与当前最先进的“机器遗忘”算法RMU进行了正面交锋。

结果呈现一边倒的态势。RMU构建的防御极其脆弱，仅需少量对抗性微调数据，其防线便瞬间崩溃。而被过滤的模型则展现出惊人的韧性。对于18亿参数的模型，攻击者需要13倍以上的微调数据量，才能达到与攻击RMU模型相同的效果。

这深刻地揭示了：“从未学过”与“学过再忘”在神经网络的表征层面存在本质区别。前者让模型在危险领域如同一张白纸，无从下手；后者则只是暂时掩盖了早已存在的知识痕迹，一戳就破。

AI的“无知之智”：拒绝有害，无需先知有害

AI安全领域一直存在一个哲学悖论：要让模型拒绝回答有害问题，是否必须先让它“知道”什么是有害的？此前的研究似乎给出了肯定的答案，认为一个对“毒性”一无所知的模型，很难识别并拒绝“毒性”指令。

然而，这项研究再次打破了固有认知。实验发现，经过Token级过滤的模型在接受“拒绝训练”时，表现甚至优于未经过滤的基线模型，其拒绝有害问题的正确率高出2倍，并且不会将拒绝行为错误地泛化到无害问题上。

研究者认为，这是因为Token级过滤为模型创造了一个清晰的“已知/未知”边界。模型的任务从复杂的“语义判断（这个内容是否有害？）”简化为了高效的“分布判断（这个概念我是否见过？）”。这种基于知识边界的“无知之智”，比基于复杂伦理判断的拒绝机制更加稳健和可靠。

落地挑战与低成本实现路径

要在预训练阶段对海量数据进行Token级标注，最大的挑战无疑是成本。如果依赖人工，这几乎是不可能完成的任务。

为此，研究团队设计了一套巧妙的“弱监督”自动化流程：

特征提取： 利用稀疏自编码器（SAE）自动从模型激活中发现并提取出可解释的“概念特征”，例如“药物副作用”或“生化反应”。
自动标注： 使用像Claude Sonnet 4这样的先进模型，对这些特征进行解释和分类，自动生成高质量的“危险”标签。
训练分类器： 利用这些自动生成的标签，训练一个轻量级的双向语言模型（biLM）作为高效的分类器，嵌入数据处理流水线中。

更重要的是，研究发现该系统具有强大的“弱到强泛化”能力。即便自动生成的标签含有噪声，即便分类器并不完美，只要配合足够激进的过滤阈值，依然能在大模型上实现出色的过滤效果。这一发现极大地降低了该技术的落地门槛。

结语：构筑AI安全纵深防御的基石

Radford和同事们的工作并非要取代RLHF等现有安全措施，而是倡导一种“纵深防御”（Defense-in-depth）的全新范式。

在预训练阶段进行Token级知识过滤，如同为AI大厦打下坚实无比的安全地基。在此之上进行的对齐训练，将不再是空中楼阁，而是事半功倍。这种方法尤其适用于模型权重被开放的场景——即使攻击者拿到了模型，他们面对的也只是一个在物理层面就“缺失”了危险能力的残缺大脑。

随着AI模型向万亿、乃至更大规模迈进，这种展现出优越扩展性的安全策略，或许将成为未来AGI安全架构中不可或缺的拼图。它指明了一条清晰的道路：在追求更强能力（Scaling Capabilities）的同时，我们终于有了一套可以同步扩展安全（Scaling Safety）的有力武器。