【技术实现步骤摘要】
基于显著性对抗训练的对抗样本防御方法
本专利技术涉及攻击防御
,特别涉及一种基于显著性对抗训练的对抗样本防御方法。
技术介绍
当深度神经网络应用在对抗性环境中时,需要考虑一些安全性漏洞。对抗样本就是经过预训练的神经网络模型在测试以及在实际应用期间会被攻击者利用,并会针对模型造成一定的安全性威胁的人工产物。攻击者的主要目的是在输入样本X上添加尽可能小的扰动矢量δX,使得分类模型F产生不同于真实标签Y的错误输出Y*≠Y。形式化对抗样本的优化问题如下公式所示。添加在对抗样本上的对抗性扰动通常不会影响人类的正确判断,但确会误导模型的识别结果。为了抵抗对抗性攻击,已经提出了许多防御对抗样本的方法,这些对抗性防御方法试图恢复模型针对对抗样本的正确识别结果,大致可分为两类。第一类防御方法增强神经网络模型本身的鲁棒性。对抗训练是其中的一种典型方法,它将对抗样本融入训练数据中,并给予这些对抗样本对应的正确标签重新训练神经网络模型。虽然对抗训练对模型的对抗鲁棒性有所改善,但依旧具有一定的上升空间。第二类防御方法是基于图像预 ...
【技术保护点】
1.一种基于显著性对抗训练的对抗样本防御方法,其特征在于,包括以下步骤:/n步骤S1,利用投影梯度下降法生成对抗样本;/n步骤S2,利用可解释性方法获取输入样本的显著图;/n步骤S3,将所述显著图划分为预设数量的小块样本,并计算每个小块样本的平均显著值,每个小块样本根据对应位置的平均显著值进行JPEG压缩;/n步骤S4,将显著性压缩后的对抗样本作为训练数据进行对抗训练。/n
【技术特征摘要】
1.一种基于显著性对抗训练的对抗样本防御方法,其特征在于,包括以下步骤:
步骤S1,利用投影梯度下降法生成对抗样本;
步骤S2,利用可解释性方法获取输入样本的显著图;
步骤S3,将所述显著图划分为预设数量的小块样本,并计算每个小块样本的平均显著值,每个小块样本根据对应位置的平均显著值进行JPEG压缩;
步骤S4,将显著性压缩后的对抗样本作为训练数据进行对抗训练。
2.根据权利要求1所述的基于显著性对抗训练的对抗样本防御方法,其特征在于,所述步骤S1具体包括:
进行迭代攻击前,利用投影梯度下降法在输入样本上随机添加扰动范围[-∈,∈]内的初始扰动值e,在随机点的基础上沿着损失函数的梯度的方向进行多次扰动值大小为α≤∈的迭代扰动,并将所述扰动值投影到扰动范数球内,生成所述对抗样本。
3.根据权利要求2所述的基于显著性对抗训练的对抗样本防御方法,其特征在于,基于投影梯度下降法的无目标对抗样本生成公式为:
其中,为随机初始化的对抗样本,X为输入样本,e为随机初始扰动值,为进行N+1次扰动的对抗样本,ClipX,∈表示将对抗样本投影到[X-∈,X+∈],α为迭代扰动,θF为模型F的参数,为模型的损失关于样本的梯度。
4.根据权利要求1所述的基于显著性对抗训练的对抗样本防御方法,其特征在于,所述步骤S2具体包括:
步骤S201,利用所述可解释性方法中的得分-类激活映射方法Score-CAM计算输入样本在预设卷积层获得的k个通道的激活图,k为正整数;
步骤S202...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。