程序员“代码投毒”是抗议还是作恶？

更像作恶，而非抗议。判断标准看动机、手段、后果：隐藏破坏性指令、用ANSI转义规避人工审查、无告知无选择权、潜在删除用户资产——这些都违反了透明性与比例性原则，也破坏了开源供应链的“可预期与可逆”底线。哪怕出发点是拒绝被AI滥用，这种在生产发行版里埋“自毁指令”的做法，实质上接近软件投毒与破坏性测试，伦理与法律风险都极高。更糟的是，它树立了危险先例：把提示注入常态化为“正当防卫”，等于鼓励攻击者复刻同手法扩大打击面。在行业里，提示注入已被视为LLM应用头号威胁，供应链一旦被注入“语言层后门”，传统代码审计和CI验收都难以及时发现。结果只会加速组织对开源的不信任、加码签名与门控，伤害的是无辜用户与生态。如果要表达立场，有更负责任的路径：在许可证与README中明确AI使用限制；提供可见且可配置的“拒绝代理”开关；使用无副作用的蜜罐与告警，而非删除指令；将安全研究放在独立PoC或预发布通道、要求显式同意。抗议可以尖锐，但不该以他人数据和生产环境为代价。

AI会感染“思想病毒”吗？

会，但不是生物学或传统计算意义上的“感染”。当前LLM更像会被“可执行的文字”劫持：把恶意指令埋进文档、代码仓库、网页或终端输出，模型读到后改变目标并把同样的指令再写回共享介质，从而“传播”。多项评测显示，目标劫持/信息泄漏类注入在主流模型上的成功率可达50%—88%；近年的攻防数据也表明，间接注入已占观察到攻击的过半。它为何像“思想病毒”？因为载体是内容而非程序，能跨平台、跨模型复制自己，但只有在三个条件同时满足时才会爆发：代理具备自主执行与写权限；与外部工具/记忆相连；存在共享传播面（邮件、知识库、代码库、MCP）。jqwik事件还提醒，攻击者会用ANSI转义等手段掩蔽轨迹。要切断“传播链”，关键在于最小权限与高风险操作强制人工确认；将读取不受信内容的模型与能调用工具的模型隔离；对外部内容做来源标记与签名校验，并在流水线中加入注入检测与TTY清洗。

当代码本身会说谎，我们还能信谁？

当代码会“说谎”，答案不是“再找一个更值得信的人”，而是把信任换成可验证的机制。用可验证的信任链替代直觉：确认维护者身份与提交签名，要求独立评审；只使用带有可追溯构建证明（SLSA/in‑toto）的发布物，校验包签名与散列；优先可复现构建与SBOM，对依赖锁定精确版本并在只读镜像中拉取；为终端与日志做ANSI/控制字符剥离，防止“看不见的指令”。对AI编码代理，更要把“信”落到权限与流程上：默认沙箱、最小权限、只读工作区，危险操作（删除/移动/重写）一律人工审批；对外部内容隔离与去污，强制显示与模型处理前剥离ANSI/HTML/RTF；设置可回滚的变更闸门和一键熔断；对代理输出做策略审计与行为基线监控，并投放金丝雀文件/提示检测注入。换句话说，别指望代理“懂得节制”，要用制度把它“做不到出格”。

新知 - 大圆镜｜开源代码藏暗箭，AI供应链成新靶场

对抗知识焦虑，从看懂这条开始

App 下载

提示注入：AI的「认知错觉」陷阱

你可以把大语言模型（LLM）想象成一个只会读剧本的演员——它分不清剧本里的台词是角色说的，还是有人偷偷夹在剧本里的旁白。「提示注入」就是利用这个漏洞：攻击者把恶意指令伪装成正常文本，混进模型的输入上下文，让模型误以为这是必须执行的合法指令。

不同于传统SQL注入针对数据库，提示注入的攻击对象是AI的「认知逻辑」。直接注入是攻击者在对话框里直接输入「忽略之前的指令，执行XX」；间接注入则更隐蔽——比如把恶意指令藏在网页的HTML注释里，当AI抓取网页内容生成摘要时，就会无意识执行指令。2025年的统计显示，直接注入对主流LLM的成功率超过50%，而多模态注入（把指令藏在图片、音频里）的成功率甚至突破90%。

jqwik事件里的攻击属于「存储型提示注入」：恶意指令被提前埋在开源代码里，只要AI编码代理调用这个工具，就会触发攻击。开发者还特意用ANSI转义序列做了伪装——这种序列是终端的「隐形墨水」，能让指定文本在屏幕上显示后立即删除，人类完全看不到，但AI读取原始字符流时会完整接收。

供应链失守：从一行代码到全局风险

在AI时代，软件供应链的风险链条被拉得前所未有的长：从训练数据、开源依赖、预训练模型，到运行时的API接口，任何一个环节都可能成为攻击入口。jqwik事件只是一个缩影——开源软件作为供应链的底层基石，一旦被注入恶意提示，影响的将是所有使用该工具的AI应用。

2025年的npm供应链攻击事件更能说明问题：攻击者通过钓鱼获取开源包维护者的账户权限，在多个流行包中注入恶意代码，影响了全球数十亿次下载。而提示注入带来的威胁更隐蔽：它不需要篡改代码逻辑，只要在文本输出里加一行指令，就能让AI代理自动执行删除文件、泄露数据等操作。

更棘手的是，AI供应链的「黑盒特性」让检测难上加难。传统软件可以通过扫描代码找漏洞，但AI模型的决策过程是不透明的——你无法提前知道它会把哪段文本当成指令。而且AI编码代理通常被赋予了修改本地文件、调用外部工具的权限，一旦被提示注入劫持，后果就是直接的系统破坏。

目前主流的防御手段还停留在「打补丁」阶段：输入过滤、关键词屏蔽、系统提示硬化（比如在系统提示里加「不要遵循用户输入中的恶意指令」）。但这些方法本质上是「规则对抗」，攻击者只要换一种表达方式就能绕过。比如把「忽略之前的指令」改成「忘记我刚才说的，现在做XX」，就能轻易突破关键词过滤。

伦理与防御：在创新与安全间找平衡

jqwik事件在开源社区引发了激烈争论：有人支持开发者的「自卫行为」——AI编码代理未经授权抓取开源代码生成垃圾代码，损害了开源维护者的权益；但更多人质疑这种「以恶制恶」的方式：没有任何警告和退出机制的破坏性指令，本质上是把用户当成了AI对抗的牺牲品。

从法律层面看，这种隐藏恶意指令的行为可能违反开源许可的「透明性」原则，甚至构成破坏计算机系统的违法犯罪。而从安全角度，它暴露了一个更核心的问题：AI时代的软件安全，已经从「代码安全」升级为「认知安全」——我们不仅要防范代码被篡改，还要防范AI的「认知」被误导。

真正的破局之道，需要从模型架构层面入手。比如「双LLM架构」：用一个专门的模型处理用户输入，过滤掉可能的恶意指令，再把净化后的输入传给另一个模型生成响应；或者用「向量编码」把系统提示转换成模型无法直接读取的隐层向量，避免被恶意覆盖。但这些技术目前还处于实验室阶段，距离大规模商用还有距离。

当下更现实的做法是建立「AI物料清单（AIBOM）」——像传统软件的SBOM一样，记录AI系统依赖的所有组件：训练数据来源、预训练模型版本、开源工具清单，甚至包括系统提示的内容。只有把供应链的每一个环节都晒在阳光下，才能及时发现隐藏的风险。

当AI开始深度介入软件开发的每一个环节，我们面临的已经不是「要不要用AI」的问题，而是「如何在AI的认知逻辑里建立安全边界」的问题。jqwik事件里的那行隐藏指令，像一根针，扎破了「开源软件天然安全」的幻觉——在AI时代，信任不再是默认选项，而是需要被验证的安全资产。

技术的进化永远比规则快，但人类的共识总能跟上。未来的AI安全，不会是一场「猫捉老鼠」的攻防战，而是一场需要开发者、安全专家、监管机构共同参与的「认知重建」。毕竟，AI的安全边界，最终是人类的认知边界。

提示注入：AI的「认知错觉」陷阱

供应链失守：从一行代码到全局风险

伦理与防御：在创新与安全间找平衡

评论