【技术实现步骤摘要】
基于特征空间距离加固的深度学习后门防御方法
[0001]本专利技术涉及人工智能安全
,更具体的说是涉及一种基于特征空间距离加固的深度学习后门防御方法。
技术介绍
[0002]深度学习模型中的后门会使任何带有特定模式的输入被错误地分类为目标类。与对抗样本需要在模型运行中生成扰动的攻击方式不同,后门攻击(Backdoor Attack)可以通过简单地标记一个模式迅速地产生效果。虽然后门可以通过数据投毒、神经元劫持等方法人为注入,但它们也广泛存在于正常训练的模型中:当数据各类之间相似度过高或模型在目标类包含的底层特征上过度拟合时,就可能导致天然后门。随着深度学习模型在自动驾驶、监控、访问控制等安全关键任务中的应用日益增长,后门正成为一个突出的安全威胁。
[0003]现有的防御技术可以分为后门扫描(Backdoor Scanning,确定模型是否存在注入的后门)、后门检测(Backdoor Detection,在运行中确定输入是否包含后门模式)、后门消除(Backdoor Elimination,清除模型中注入的后门) ...
【技术保护点】
【技术特征摘要】
1.一种基于特征空间距离加固的深度学习后门防御方法,其特征在于,包括以下步骤:量化模型特征空间的类距离;设计后门生成方法,生成各类通用触发器,更新预选择矩阵U;基于预选择矩阵U,设计调度器选择距离容量最大的类对;设计双向后门生成方法,生成对称后门触发器,进行类距离对称加固训练,并更新后选择矩阵V;基于预选择矩阵U和后选择矩阵V,设计奖励函数,优化类对选择;重用后门,设计动态适应优化权重加速加固训练,不断迭代,直至每组类对均达到相应的最大类距离。2.根据权利要求1所述的一种基于特征空间距离加固的深度学习后门防御方法,其特征在于,量化模型特征空间的类距离,具体为:定义从受害者类翻转到目标类所需最小后门转换的L
p
范数为两个类之间的距离,即类距离由最小后门决定。3.根据权利要求1所述的一种基于特征空间距离加固的深度学习后门防御方法,其特征在于,设计后门生成方法,具体为:根据梯度下降优化设计后门生成方法,生成对应的逆向触发器;后门生成方法如下:根据梯度下降优化设计后门生成方法,生成对应的逆向触发器;后门生成方法如下:式中:是模型的损失函数;y
t
是不同于输入x的真实标签的目标标签;λ是调整第二项m的L1范数的权重;是将生成的后门应用于输入x的转换;m是一个掩码矩阵,其值的范围从0到1;δ是一个后门,与输入x具有相同的形状和值的范围;X表示样本数据集,x'表示后门毒化输入。4.根据权利要求3所述的一种基于特征空间距离加固的深度学习后门防御方法,其特征在于,生成各类通用触发器,具体为:依次将每个类视作目标类,通过后门生成方法生成通用触发器,使其余除目标类外的所有样本标签改变为目标类标签;通用触发器的具体生成方法如下:式中:x'
i
通过公式(1)获得,y
i
是x
i
的真实标签,x
i
表示数据集各样本。5.根据权利要求1所述的一种基于特征空间距离加固的深度学习后门防御方法,其特征在于,更新预选择矩阵U,具体为:将通用触发器应用于除目标类外所有源类,启动优化过程;在每次对目标类的优化过程中,记录不同源类的损失变化,每个源类使用一组样本来近似源类到目标类的距离,计算公式如下:
式中:s和t分别代表源类和目标类;u
s
→
t
表示源类到目标类的距离;m是样本数量;和分别代表样本i的初始损失值和最终损失值;y
i,s
是样本i的标签,y
t
是目标类的标签;每次优化将公式(4)的计算结果更新在预选择矩阵U中,每一项记录源类到目标...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。