【技术实现步骤摘要】
一种基于模型扫描与剪枝的物理后门的防御方法
[0001]本申请涉及网络空间安全和人工智能安全领域,具体而言,涉及一种基于模型扫描与剪枝的物理后门的防御方法。
技术介绍
[0002]近年来,在交通、金融、医疗、军事等关键领域中,人工智能技术发挥了重要的作用。随着深度学习的广泛应用,人工智能的安全性问题却也成为了一个不可忽视的重要问题。由于在深度学习中,模型和数据都决定着最终的识别结果,如果有人恶意给模型植入后门,将严重影响模型的安全性。
[0003]后门攻击通过对训练数据进行一些扰动,将带有扰动的数据和正常数据一起进行训练,使得模型内部的权重发生变化,从而对模型进行攻击。注入的后门不会影响模型对正常输入的识别结果,但是对具有特定触发器的输入则会识别为攻击者设计好的固定目标。这类攻击通常在正常使用中难以发现,因此难以辨别和清除。模型一旦在训练阶段被设置好了触发器,该模型就相当于给攻击者留出了后门,攻击者在模型的使用阶段,输入带有触发器嵌入的数据,将导致严重的后果。
[0004]注入的触发器又分为数字和物理两种,数 ...
【技术保护点】
【技术特征摘要】
1.一种基于模型扫描与剪枝的物理后门的防御方法,其特征在于,包括:利用干净数据集对预训练模型进行攻击,所述干净数据集包括带有触发器的样本图片;记录激活值异常的候选神经元,并根据权重对所述候选神经元进行排序;对排序后的候选神经元按照步长进行循环剪枝操作,以清除所述候选神经元中的中毒神经元;使用干净数据对所述预训练模型进行微调得到干净的模型,以恢复模型精度,所述干净数据属于所述干净数据集。2.如权利要求1所述的基于模型扫描与剪枝的物理后门的防御方法,其特征在于,记录激活值异常的神经元作为候选神经元,并根据权重对所述候选神经元进行排序的步骤,包括:在神经元内输入干净样本,通过神经元激活函数对神经元进行激活得到激活结果;计算干净样本和激活结果的激活差;将所述激活差的值从高至低排序,将激活差值高的神经元作为激活值异常的候选神经元;并根据权重对所述候选神经元进行排序。3.如权利要求2所述的基于模型扫描与剪枝的物理后门的防御方法,其特征在于,所述神经元激活函数为:其中w
(a,γ)
代表从神经元a的输出到神经元b输出计算中的权重,w
(b,γ)
代表权重,v
b
代表神经元b在良性输入下的输出,k
γ
代表神经元γ计算输出时的偏重,x代表对神经元的输入。4.如权利要求1所述的基于模型扫描与剪枝的物理后门的防御方法,其特征在于,对排序后的候选神经元按照步长进行循环剪枝操作,以清除所述候选神经元中的中毒神经元的步骤,包括:对排序后的候选神经元进行分组;对分组后的候选神经元依次计算模型精度和攻击成功率的下降梯度;利用所述下降梯度计算步长,通过所述步长决定剪枝神...
【专利技术属性】
技术研发人员:巫忠跃,尚怡帆,李恺,朱楚为,黄钟,
申请(专利权)人:中国电子科技集团公司第三十研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。