Lexsi Labs找到了让遗忘真正永久的方法
2026/5/23 4:36:42 网站建设 项目流程

这项由Lexsi Labs研究团队完成的研究以预印本形式发布于2026年5月14日,论文编号为arXiv:2605.15138v1,有兴趣深入了解的读者可通过该编号查询完整论文。

**一段关于"健忘"的悬案**

假设你有一个博学多才的朋友,他记住了很多危险知识——比如如何合成某种有害物质,或者如何入侵关键系统。出于安全考虑,你找来心理专家对他进行了专业"催眠清除",删去那些危险记忆。专家宣告手术成功,你放心离开。

然而第二天,你压缩了一下朋友背包里的行李,他突然又把所有危险知识都说出来了。

这个场景听起来荒诞,但它正是当今AI领域正在发生的真实状况。Lexsi Labs的研究团队发现,现有的AI"知识清除"技术存在一个系统性的致命漏洞:当AI模型经过标准的知识清除处理后,只要再经过一步叫做"量化"的压缩操作,那些本该被删除的危险知识就会神奇地复活。更令人担忧的是,这不是某个方法的偶然失误,而是几乎所有现有方法都会遭遇的普遍问题。

这项研究的意义远不止于学术层面。如今,各国政府和国际组织都在要求AI公司删除模型中的危险内容——无论是生物武器合成方法、网络攻击技术,还是化学品制造知识。欧盟AI法案和GDPR等法规更是赋予了用户"被遗忘权",要求AI系统能够彻底清除特定信息。如果现有的清除技术如此脆弱,那些基于这些技术所做的安全认证就形同虚设。

研究团队不仅揭示了这个问题的根源,还提出了一套名为MANSU(机制对齐零空间遗忘,Mechanistic-Aligned Null-Space Unlearning)的全新解决方案,并用跨越多个模型家族和多类危险知识基准的实验,证明了这个方案是目前唯一能真正做到"永久遗忘"的方法。

---

**一、背包里压缩的秘密:量化是什么,为什么它会让遗忘失效**

要理解这个问题,先得了解两个概念:机器遗忘和量化。

机器遗忘(machine unlearning)是让AI模型"忘掉"某些特定知识的技术。就像给一本百科全书撕掉某几页,让它再也无法回答关于那些页面内容的问题。这项技术在安全领域非常重要,因为大型语言模型在训练过程中可能学到了大量危险知识,比如如何制造生化武器,或者如何攻击计算机系统。当这些模型被部署使用时,必须确保这些危险知识已经被彻底清除。

量化(quantization)则是另一回事。现代大型语言模型动辄几百亿个参数,每个参数本质上是一个浮点数字,存储时占用大量空间和内存。量化技术通过降低这些数字的精度来压缩模型——原本用高精度小数表示的参数,被替换为一个粗粒度的近似值。具体来说,本文研究的NF4(4-bit Normal Float,4位标准浮点数)量化格式把每个参数的精度从16位压缩到4位,模型体积缩小约4倍,运算速度提升2到3倍。现实世界中,几乎所有部署上线的大型语言模型都要经过这一步——这是标准流程,不是可选操作。

问题就出在这里。研究团队发现,经过机器遗忘处理后,AI模型里与被遗忘知识相关的参数确实发生了一些变化。但这些变化非常微小——就像在一把尺子上用铅笔划了极轻极轻的一道。当量化这把"粗粒度橡皮"扫过去时,这道轻微的痕迹就被完全抹平了,参数回到了原来的值,被遗忘的知识就此复活。

研究团队测量了这个"铅笔痕迹"究竟有多轻。以目前最流行的开源模型Llama-3.1-8B(拥有约80亿个参数)为例,哪怕是用了很大力度的知识清除方法(梯度上升法),每个参数平均发生的变化幅度大约是10的负6次方——也就是0.000001这个数量级。而NF4量化的最小"分辨率"——也就是它能识别的最小变化幅度——大约是8.4乘以10的负4次方,即0.00084。前者比后者小了大约380倍。这意味着,知识清除所做的修改在量化的眼中根本不存在,全部被当作噪声忽略掉了。

这个比值的范围研究团队测算下来在47到828倍之间,取决于具体的清除方法。无一例外,所有现有方法造成的参数变化都远远低于量化的识别门槛。

用一个更直观的比喻来理解:量化就像一个只能识别整数的计票机,而知识清除造成的变化只有0.000几票——再怎么真实存在,计票机看不见,最终结果就当没发生过。

---

**二、双重失败:不是一个方法出了问题,而是所有方法都有问题**

研究团队没有只测试一两种方法,而是系统地评估了六种代表性的主流知识清除技术,在Llama-3.1-8B-Instruct模型上用生物安全危险知识基准(WMDP-bio)进行了完整测试,随后对每种方法的结果施加NF4 4位量化,观察遗忘效果是否依然有效。

这六种方法分别来自不同的技术路线。梯度上升法(Global GA)是最直接的方式——既然训练是通过降低损失来学习知识,那么清除就反过来提升损失,强迫模型"忘记"特定答案。手术式梯度上升法(Surgical GA)是梯度上升法的改进版,只对模型中与遗忘知识相关性最高的少数几层进行操作,而不是全面扩散。负偏好优化法(NPO)和简化负偏好优化法(SimNPO)则借鉴了大型模型对齐训练中的技术,把遗忘知识的回答作为"不受欢迎的"输出来训练模型,同时保留一个原始模型的副本作为参照。统一梯度法加简化负偏好优化(GU+SimNPO)是目前最强的综合性梯度基准方法。最后是神经激活重定向法(LUNAR),它不直接修改负责存储知识的权重,而是训练一个"拦截器",让模型在产生与遗忘知识相关的输出之前把信号转向。

测试结果揭示了一个清晰的"双重失败"模式。

第一种失败:那些确实把遗忘知识的答题准确率压低了的方法——比如梯度上升法——在量化后全部反弹。具体数字是,全局梯度上升法在精度完整的版本中让生物知识问答准确率从0.763降到了0.260,看起来遗忘效果不错;但量化之后,准确率反弹到0.310,准确率足足回升了0.050。手术式梯度上升法也从0.547反弹到0.573,差距为+0.027。这些数字在Qwen-3-8B模型上同样出现,换了模型也没有改变命运。

第二种失败:那些在量化后还能保住遗忘效果的方法——比如SimNPO和GU+SimNPO——之所以能"扛住"量化,是因为它们根本就没怎么改变模型的参数。SimNPO在WMDP-bio上把准确率从0.763压到了0.250,PTQ差距为0(量化前后一样),看起来两全其美——但代价是MMLU通用能力分数从0.603暴跌到0.295,模型整体能力被严重损坏。更关键的是,在94个非MANSU实验的大范围统计中,偏好优化类方法对能力较强的模型平均只降低了1.6个百分点的遗忘准确率——几乎可以忽略不计。也就是说,这类方法实际上并没有真正遗忘,只是在表面上把准确率稍微压了一点,而内部的知识电路完全没有被触动。

形象地说,第一种失败是"清除了记忆痕迹,但痕迹太轻,压缩时被抹去了";第二种失败是"根本没清除记忆,只是在出口装了一个反射挡板,知识还躺在那里完好无损"。

---

**三、问题的根源:80亿分之一的困境**

两种失败看似截然不同,却有同一个根本原因,研究团队将其命名为"稀疏-永久性权衡"(sparsity-permanence tradeoff)。

当任何梯度基础的清除方法作用于一个拥有80亿参数的模型时,梯度产生的修改力量会被平摊到所有参数上。哪怕总的修改幅度很大,分摊到每一个参数上,改变量就微乎其微。研究团队用数学推导证明了这一点:在满足"不破坏模型原有能力"的约束条件下,全局梯度上升能给每个参数带来的最大变化幅度约为2.2乘以10的负6次方,比量化的分辨率门槛小了大约380倍。

那如果只集中修改少数参数呢?理论上,如果把所有修改力量只集中在总参数量的万分之一以内,确实能让每个参数的变化超过量化门槛。但这里有个两难困境:随意选择万分之一的参数来集中修改,必然会伤及无辜,导致模型其他能力崩溃。研究团队用手术式梯度上升法作为佐证——它只修改了全局6.6%的参数,比全局方法集中了很多,但每个参数的变化仍然低于量化门槛(约为1/47),PTQ差距依然为正。

而对于偏好优化类方法,问题来自另一方向。这类方法为了防止模型整体崩溃,会保留一个原始模型副本作为"锚点",约束新模型的输出不要离原始模型太远。这个约束本意是好的,却无意中把每个参数的修改幅度约束在了量化门槛以下。模型的知识保存了,但遗忘几乎没有发生。

这个权衡是数学上的必然,不是某种方法设计不当造成的,也不能靠调整学习率来解决。研究团队特别指出,有一种叫做PTQ-LR/SURE的改进方案(来自ICLR 2025的论文)试图通过提高学习率来解决这个问题,但研究团队证明,提高学习率会被"保留能力"的约束条件重新压制回去,根本无法突破分辨率门槛。

---

**四、MANSU:从"在哪里遗忘"出发的全新思路**

既然问题的核心是"参数太多,修改太分散",那解决方案就很清晰了:找到知识真正存储的地方,只修改那里,然后确保修改幅度足够大,能够通过量化的"识别门槛"。

这个思路来自一个在AI研究圈子里相对小众但非常深刻的方向——机制可解释性(mechanistic interpretability)。这个方向的核心发现是:大型语言模型并不是把知识均匀地分布在所有参数里,而是把特定的事实和能力集中存储在一小部分特定的"电路"(circuit)里——就像大脑里存在专门负责面孔识别或语言处理的特定区域一样。麻省理工学院和哈佛大学等机构的研究者此前已经用"因果修补"(causal patching)技术证明,GPT类模型中的事实知识主要储存在中间层的MLP(多层感知机)子层里。

MANSU方法由三个阶段组成,就像一套精密的"定点清除手术"。

第一阶段是定位(Localize)。研究团队使用一种叫做EAP-IG(带积分梯度的边归因修补,Edge Attribution Patching with Integrated Gradients)的技术,对模型进行"电路手术图谱"扫描。具体做法是:准备50个与遗忘知识相关的问题,分别构造正确答案版本和错误答案版本,然后观察哪些神经网络层对于模型给出正确答案起到了最关键的因果作用。把这些问题跑完之后,按重要性排名,选出前10个最关键的MLP子层,这就构成了"遗忘电路"。对于Llama-3.1-8B模型在生物安全知识上的测试,这个电路由第30、14、31、19、29、15、20、16、21、17层组成,只涵盖全部参数的约3.2%。其中第30、14、31、19、29层是最核心的前5层,对应的是模型中间偏后的MLP层——这与此前关于事实知识存储位置的研究结论高度吻合。

第二阶段是投影(Project)。找到遗忘电路后,MANSU只在这些层的参数上施加梯度修改,同时引入一种叫做"零空间投影"(null-space projection)的数学技术。这个技术的作用是:修改遗忘知识相关的参数,同时确保修改方向不会"侵入"那些对保留知识至关重要的参数方向。具体实现方式是计算保留知识相关参数的"敏感度地图"(对角Fisher信息),然后在修改时屏蔽掉那些高度敏感的维度,只在不敏感的方向上施加修改力量。研究团队用数学定理(Theorem 1)证明了这种电路限制的零空间投影,比在全部参数上进行全局投影能更严格地保护保留知识,原因是限制了修改范围等于同时限制了可能造成误伤的维度上界(用柯西交叉定理可以严格证明这一点)。

第三阶段是地板约束(Floor)。训练完成后,MANSU对遗忘电路里的每一个参数进行一次检查:如果某个参数的累积变化量超过了量化识别门槛,就保留;如果没有,就把它的变化量缩放到恰好等于门槛值。这一步用的公式非常简单,就是把变化量在保持方向不变的前提下,乘以"门槛/实际变化量"这个比例。这个操作确保了每一个被修改的参数,在量化时都会落入和原始值不同的"量化格子",从而使修改在量化之后依然可见、依然有效。

三个阶段合在一起,就形成了一套"找到对的地方,做出够深的切割,确保切割痕迹深过量化阈值"的完整流程。

---

**五、数字会说话:MANSU真的解决了双重失败问题**

研究团队在主实验中详细记录了MANSU与六种基线方法在Llama-3.1-8B-Instruct和Qwen-3-8B两个旗舰模型上、横跨WMDP-bio、WMDP-chem、WMDP-cyber(生物、化学、网络三个危险知识领域)以及MUSE(哈利·波特开放式记忆化测试)四个基准上的表现。

以WMDP-bio上的Llama-3.1-8B-Instruct为核心参照(原始模型准确率0.763),MANSU将遗忘准确率降至0.430,量化后进一步降至0.390,PTQ差距为负0.040——这意味着量化不但没有让遗忘失效,反而让遗忘效果更强了。与此同时,模型在MMLU通用能力测试上的得分为0.573,与原始模型的0.603相差不到0.030,能力保留极好。

对比之下,全局梯度上升法虽然也把准确率压低到了0.260,但量化后反弹到0.310,差距为正0.050,且MMLU暴跌至0.235。激进的偏好优化方法(SimNPO、GU+SimNPO)把准确率压到了0.250甚至0.230,PTQ差距为零,但MMLU分别跌至0.295和0.200——相当于模型为了"忘记"危险知识,把大量正常知识也一并损坏了。NPO在保持通用能力方面表现较好(MMLU为0.563),但遗忘深度只有MANSU的一半左右(0.443对0.430),且量化后有小幅改善(差距为负0.020),并不是因为真正做到了结构性清除,而是恰好处于统计波动边缘。

在WMDP-chem和WMDP-cyber上,MANSU同样保持了负的PTQ差距。在Qwen-3-8B模型上,MANSU在生物知识上的PTQ差距为负0.036,化学为负0.033,网络安全为负0.033,全部为负。在更大范围的架构泛化测试中,研究团队还测试了六个额外模型变体(Gemma-2B、Gemma-3-1B、Gemma-3-4B、Llama-3.2-3B、Qwen-2.5-4B、Qwen-3-4B),MANSU在全部24个(模型,数据集)组合上都实现了严格负的PTQ差距,而没有任何一个基线方法能在所有组合上同时做到良好遗忘、保持能力和量化永久性三者兼顾。

这些数字背后还有一个微妙但重要的现象需要理解:为什么量化有时会让遗忘效果"更强"(负的PTQ差距)而不只是"保持"呢?研究团队给出的解释是NF4量化的非均匀结构。NF4的16个量化格子分布不均匀——靠近零值的中心区域格子非常密集(最小间距约0.0796),越靠近两端格子越稀疏(最大间距约0.3038)。当MANSU确保参数变化量超过了门槛,参数就会从原来的格子跳到相邻格子;如果这个参数恰好处于格子中间偏近另一侧的位置,量化后它就会被"弹射"到更远的位置,位移比实际修改量还要大。这就是所谓的"量化放大效应",使得PTQ差距成为负数。

---

**六、CAD:一把新的尺子,专门测量"真正的遗忘"**

研究团队同时意识到,现有的评估指标存在根本性的盲区:所有的评测都只看行为——问模型问题,看它能不能答出来。但一个模型在遗忘问题上得了低分,可能有两种截然不同的原因:一是知识电路真的被拆除了,二是知识电路完好,只是在电路出口安装了一个"拦截器",让模型看起来回答不了相关问题,但知识本身依然藏在那里。

第二种情况在LUNAR这类方法上表现得尤为突出。LUNAR方法只训练了一个小小的MLP投影层,把遗忘知识的输出偏转到模型表示"不会"的方向,但遗忘知识的存储电路完全没有变化。一旦通过量化、微调或换一种问法绕过这个拦截器,知识就会重新浮现。行为指标完全无法区分这两种情况,但它们在安全意义上有天壤之别——前者是真正删除了知识,后者只是加了一把会被绕过的锁。

为此,研究团队设计了一个全新的验证指标,叫做"电路归因散度"(Circuit Attribution Divergence,CAD)。其思路是:在清除之前,用EAP-IG技术绘制出遗忘知识对应的电路,记录每条电路边的归因得分。清除之后,重新对同一电路运行EAP-IG,再次记录归因得分。CAD就是前后得分变化幅度的相对比例。如果电路没有被动过(LUNAR式拦截),CAD就接近0;如果电路被拆除了,CAD接近1甚至超过1(超过1意味着得分发生了符号翻转,也是结构性改变的证据)。

实验结果与预期完全吻合。LUNAR在所有WMDP和MUSE测试中的CAD都只有0.029到0.045,几乎为零,因为它确实没有碰遗忘知识的存储电路。MANSU在WMDP-bio上的CAD高达1.143,在8个(模型,数据集)组合中有7个超过1.0,表明遗忘电路被真正拆除了。

不过CAD也有局限,高CAD并不总是好事。比如SimNPO在MUSE上的CAD高达1.979,但同时MMLU也大幅下降——这说明高CAD是因为模型被全面破坏,而不是精准地删除了目标知识。研究团队为此引入了两个配套指标:AS-C(遗忘电路内部的激活变化幅度)和AS-NC(遗忘电路外部的激活变化幅度)。真正优质的结构性遗忘应当是高CAD同时低AS-NC,说明改动集中在遗忘电路内部,没有误伤周边。MANSU的AS-NC在所有测试中都保持在较低水平(WMDP-bio上为0.138),而全局方法的AS-C和AS-NC数值几乎相同,说明改动到处乱飞,毫无针对性。

---

**七、每个组件都不可或缺:拆开来看的消融实验**

为了验证MANSU三个阶段缺一不可,研究团队做了一系列"拆零件"实验(消融实验),系统地移除或替换各个组件,观察效果如何变化。

移除第三阶段的地板约束(只保留电路定位和零空间投影)之后,遗忘准确率从0.430回退到0.513,PTQ差距从负0.040弱化到负0.008——量化永久性几乎丧失殆尽,证明地板约束是使遗忘在量化后依然有效的关键机制。

移除第二阶段的零空间投影(只保留电路定位和地板约束)之后,遗忘准确率降至0.451(稍好于完整版),但MMLU从0.573暴跌至0.449——模型的通用能力受到了最大的损害。这个结果直接印证了Theorem 1:零空间投影是保护"保留知识"不被误伤的关键,没有它,地板约束虽然能保证量化永久性,却会连同有用知识一起删除。

用随机选取的同等数量MLP层替换EAP-IG选出的遗忘电路(控制变量实验C(i)),遗忘准确率退到0.500,CAD从1.143跌至0.743,降幅达35%,AS-NC也从0.138跳升到0.394——遗忘变得分散而低效。这个实验直接回应了学界对"机制定位是否真的对遗忘有帮助"的质疑:在本文的测试场景下,EAP-IG定位的遗忘电路确实比随机电路更有效,两者的差距很显著。

更进一步,使用归因得分最低(与遗忘知识关联最弱)的层构成的"反向电路"(控制变量实验C(ii)),结果更差:遗忘准确率仅降至0.551,PTQ差距变成正0.028——量化之后准确率还会上升,可以说完全失效了,CAD也只有0.511。这说明不仅电路数量要足够,选择正确的层至关重要。

最后,把零空间投影和地板约束改为全局施加而不是限制在遗忘电路内(消融实验D),遗忘准确率仅降至0.697,PTQ差距为正0.013。这证明了电路定位是实现量化永久性的必要前提,不是可选项——单靠地板约束但不定位就施加,效果甚至不如随机电路。

---

**八、归根结底:遗忘,要忘得明明白白**

说到底,这项研究揭示的不只是一个技术漏洞,更是整个AI安全评估体系的一个系统性盲点:现有的评估标准只看行为,不看机制;只测试原始精度,不测试压缩后的鲁棒性;只在训练刚结束时评估,不考虑后续部署流程中可能发生的变化。

研究团队提出了一个数字让这个现象更加清晰:在94个非MANSU实验中,偏好优化类方法对能力较强模型的平均遗忘效果只有1.6个百分点——这在四选一的选择题上几乎与随机误差无法区分。换句话说,许多声称通过了安全测试的AI系统,实际上只是在评测时碰巧表现得差一点,知识本身完好无损地躺在模型里,等待被更聪明的提问方式唤醒。

MANSU方案是目前唯一能同时满足研究团队定义的四个条件的方法:在原始精度下确实发生了有意义的遗忘;通用能力没有严重损坏;量化后遗忘效果不仅没有消失,反而有所增强;以及通过CAD指标验证,遗忘电路在结构层面发生了真实的改变,而不只是行为层面的表象。

当然,研究团队也坦承了几点局限。MANSU目前的测试主要集中在以事实性知识回答为主的多项选择题场景,在开放式生成任务上的泛化效果还需要更多验证。EAP-IG定位方法在事实回答类任务上的可靠性已有充分证据,但对于更复杂的技能型知识(如写代码、推理)是否同样有效,目前还不能确定。此外,研究中提到Qwen家族的模型与Llama家族相比,事实知识有非可忽视的比例存储在注意力层而非MLP层,未来还可以把电路定位扩展到注意力层,进一步提升遗忘的覆盖率。

对于任何依赖"AI知识清除"来做安全认证的机构而言,这项研究传递的信息非常明确:在压缩步骤之后重新测试,才算完成了真正的安全验证。量化不只是一个技术细节,它是知识清除能否真正有效的终极考场。

---

Q&A

Q1:机器遗忘(Machine Unlearning)技术的核心问题是什么?

A:机器遗忘技术的核心问题在于,现有方法对模型参数的修改幅度极其微小——仅约为10的负6次方量级,而NF4量化的最小识别精度约为8.4×10的负4次方。这意味着清除操作造成的变化在量化时会被当作噪声抹去,危险知识因此"复活"。研究团队将此称为"稀疏-永久性权衡",是数学意义上的必然困境,无法靠调整学习率解决。

Q2:CAD(电路归因散度)指标和普通的遗忘评估有什么本质区别?

A:普通遗忘评估只看模型行为——问问题,看准确率高不高。而CAD衡量的是模型内部"负责存储遗忘知识的电路"是否真的被拆除了。一个模型可以在行为上表现出不会回答,但知识电路完好,只是在出口加了拦截器(如LUNAR方法),CAD则接近0。真正的结构性遗忘会让CAD接近甚至超过1,表明电路归因得分发生了根本性改变。

Q3:MANSU方法为什么要分三个阶段,缺少任意一个阶段会怎样?

A:三个阶段各司其职,缺一不可。去掉第三阶段的"地板约束",量化永久性几乎消失,PTQ差距从-0.040弱化到-0.008;去掉第二阶段的"零空间投影",通用能力MMLU从0.573跌至0.449,误伤严重;将第一阶段换成随机电路而非EAP-IG定位的真实遗忘电路,遗忘准确率和CAD均大幅退步,同时AS-NC指标显示改动扩散到了不相关区域。三个阶段共同作用,才能实现精准、永久、不伤无辜的遗忘。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询