基于知识蒸馏的神经网络黑盒攻击型防御方法技术

技术编号:23852617 阅读:16 留言:0更新日期:2020-04-18 09:26
本发明专利技术公开了一种基于知识蒸馏的神经网络黑盒攻击型防御方法,其包括选取多个子网络构建教师网络,对所有子网络softmax层的输入向量进行软化,之后重新加载子网络的模型参数训练得到新的子网络;获取每个子网络的预测标签,并将所有预测标签平均或加权平均后做为软标签;将ImageNet数据集输入学生网络,采用软标签、数据集硬标签及黑盒模型特殊标签指导学生网络训练,得到替代模型;采用白盒攻击算法攻击替代模型生成对抗样本序列,并采用对抗样本序列对黑盒模型进行攻击,选取对抗样本序列中攻击成功的对抗样本;将攻击成功的对抗样本加入黑盒模型的训练集中,并采用更新后的训练集进行对抗训练,生成具备防御攻击的黑盒模型。

Black box attack defense method of neural network based on knowledge distillation

【技术实现步骤摘要】
基于知识蒸馏的神经网络黑盒攻击型防御方法
本专利技术涉及神经网络的防御方法,具体涉及一种基于知识蒸馏的神经网络黑盒攻击型防御方法。
技术介绍
现有比较常见的黑盒攻击分为基于迁移性的训练替代模型攻击方式以及基于决策的多次查询估计梯度攻击方式。二者在生成接近黑盒模型的替代模型后和估计接近黑盒模型的梯度后,利用主流的白盒攻击方法来进行攻击。前者在训练替代模型时多数需要得知被攻击模型的训练数据集,以及输入输出等除模型内部参数以外的众多信息,而这些信息特别是训练数据集在实际应用中是很难得知的,或者是被限制获取数量的,所以通过以上方式生成替代模型的方法在很多情况下是有所限制的。后者通过对对抗模型多次进行查询输入输出并且估计梯度,当查询次数足够多时估计得到的梯度将接近对抗模型的真实梯度以获得决策边界。但是该方法的问题是多次查询导致计算复杂度高,同时在限制查询次数的黑盒模型中无法得到进展,从而严重影响了黑盒攻击的效率。
技术实现思路
针对现有技术中的上述不足,本专利技术提供的基于知识蒸馏的神经网络黑盒攻击型防御方法解决了传统方法的多次查询带来的计算复杂度较高的问题。为了达到上述专利技术目的,本专利技术采用的技术方案为:提供一种基于知识蒸馏的神经网络黑盒攻击型防御方法,其包括:选取多个图像分类网络作为的子网络构建教师网络,对所有子网络softmax层的输入向量进行软化,之后重新加载子网络的模型参数训练得到新的子网络;获取教师网络中每个子网络的预测标签,并将所有预测标签平均后或者加权平均后做为教师网络输出的软标签;将ImageNet数据集输入学生网络,采用教师网络的软标签、数据集硬标签及黑盒模型特殊标签指导学生网络训练,得到针对黑盒模型的替代模型,特殊标签为黑盒模型分类任务中与常规数据集分类不同的样本;采用白盒攻击算法攻击替代模型生成对抗样本序列,并采用对抗样本序列对黑盒模型进行攻击,选取对抗样本序列中攻击成功的对抗样本;将攻击成功的对抗样本加入黑盒模型的训练集中,并采用更新后的训练集进行对抗训练,生成具备防御攻击的黑盒模型。本专利技术的有益效果为:本方法在多数情况下无需获取黑盒模型的数据集和查询申请,便可以对黑盒模型进行攻击,在少数边缘分类任务中,可以限制性获取黑盒模型数据集以及查询次数,仍然可以保证攻击成功。在进行攻击和防御过程中,采用知识蒸馏的方式优化了替代模型生成过程,解决了使用传统方法的多次查询带来的计算复杂度较高的问题;知识蒸馏的方式可以使用来生成替代模型的学生网络充分利用教师网络所拥有的知识信息量,减少普通训练方式丢失类别之间差异性的缺陷。通过生成对抗样本序列的方式解决了在对抗训练中对抗样本质量差并且强度低的问题,使得对抗训练更加鲁棒,即防御性更好。附图说明图1为基于知识蒸馏的神经网络黑盒攻击型防御方法的流程图。具体实施方式下面对本专利技术的具体实施方式进行描述,以便于本
的技术人员理解本专利技术,但应该清楚,本专利技术不限于具体实施方式的范围,对本
的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本专利技术的精神和范围内,这些变化是显而易见的,一切利用本专利技术构思的专利技术创造均在保护之列。知识蒸馏是一种基于神经网络的信息提取方式,同时也是一种有效的网络压缩方式,通过集成或者大规模训练的方式生成一个教师网络,然后将该教师网络的输出标签进行软化,从而增加不同类别之间的信息量,使得对于不同模型分类任务的兼容性更强。当面临实际问题的时候,教师网络会指导训练学生网络生成相应模型来解决实际的分类或识别问题,该学生网络可以有效地将教师网络中优秀的分类能力和预测能力继承下来,并且减少了教师网络的冗余性和复杂度,同时又提高了学生网络的性能。参考图1,图1示出了基于知识蒸馏的神经网络黑盒攻击型防御方法的流程图;如图1所示,该方法包括步骤101至步骤105。在步骤101中,选取多个图像分类网络作为的子网络构建教师网络,对所有子网络softmax层的输入向量进行软化,之后重新加载子网络的模型参数训练得到新的子网络。教师网络采用集成的方式将多个模型的预测结果结合到一起,能够降低整体的方差,集成多个模型使得最终的预测结果添加了偏差,而该偏差又会与神经网络的方差相抵消,使得模型的预测对训练数据的细节、训练方案的选择以及单次训练的偶然性不太敏感。实施时,本方案优选对子网络softmax层的输入向量进行软化的计算公式为:其中,T为温度系数;zi和zj均为输入向量;exp(.)为指数运算;i为当前输入向量的标号;j为所有输入向量的总数;qi为软化后预测标签。本方案通过在神经网络的softmax层的输入向量进行软化,可以使得类别之间的相关性被放大,使得最终输出的软化标签可以用来指导和监督学生网络的训练。在步骤102中,获取教师网络中每个子网络的预测标签,并将所有预测标签平均后或者加权平均后做为教师网络输出的软标签;其中,图像分类网络和学生网络均是以残差模块为基础的ResNet网络;多个图像分类网络为ResNet18,ResNet34,ResNet50,ResNet101,ResNet152;学生网络为ResNet8网络。多个图像分类网络采用上述ResNet网络后,具有相同的训练集、相似输入输出,只是在随机参数初始化、网络参数结构和网络损失函数输入值有微小差别,从而达到容易集成教师网络的目的。在采用多个子网络集成教师网络时,所有子网络给予相同的数据集进行训练,这样可以使所有子网络的输出通道一致,以保证最终得到相同维度的预测软标签。将所有预测软标签进行加权平均的公式为:其中n为子网络的数量,bi为第i个子网络的权重,Oi为第i个子网络的输出。在步骤103中,将ImageNet数据集输入学生网络,采用教师网络的软标签、数据集硬标签及黑盒模型特殊标签指导学生网络训练,得到针对黑盒模型的替代模型,特殊标签为黑盒模型分类任务中与常规数据集分类不同的样本。其中,三种类型的标签分别代表图片的不同标注信息,硬标签代表图片的固有属性,软标签代表图片类别与相近类别之前的相关性,特殊标签代表图片在黑盒模型中的特殊样本的标签。三种类型的标签具体地为:硬标签,即普通数据集中的标签,对输入数据有着明确的标定,非0即1,如[0,1,…,0],其中1代表对应数据样本的标签在标签列表中的位置。软标签,来源于教师网络,对输入数据之间的相关性有着相当信息量的解释,在保证正确样本置信度最高的情况下,也对相关性较大样本进行标定。如[0.1,0.7,…,0.1],其中0.7表示该样本在标签列表中第二个位置的置信度,最大置信度通常就是样本的真实分类,而0.1表示该样本在标签列表第二个位置的可能置信度,即在有目标攻击中最有可能攻击成功的目标类别。特殊标签,该类标签取决于黑盒模型的限制条件,在可获取少量标签的限制性黑盒模型中,使用此类标签将利于学本文档来自技高网
...

【技术保护点】
1.基于知识蒸馏的神经网络黑盒攻击型防御方法,其特征在于,包括:/n选取多个图像分类网络作为的子网络构建教师网络,对所有子网络softmax层的输入向量进行软化,之后重新加载子网络的模型参数训练得到新的子网络;/n获取教师网络中每个子网络的预测标签,并将所有预测标签平均后或者加权平均后做为教师网络输出的软标签;/n将ImageNet数据集输入学生网络,采用教师网络的软标签、数据集硬标签及黑盒模型特殊标签指导学生网络训练,得到针对黑盒模型的替代模型,特殊标签为黑盒模型分类任务中与常规数据集分类不同的样本;/n采用白盒攻击算法攻击替代模型生成对抗样本序列,并采用对抗样本序列对黑盒模型进行攻击,选取对抗样本序列中攻击成功的对抗样本;/n将攻击成功的对抗样本加入黑盒模型的训练集中,并采用更新后的训练集进行对抗训练,生成具备防御攻击的黑盒模型。/n

【技术特征摘要】
1.基于知识蒸馏的神经网络黑盒攻击型防御方法,其特征在于,包括:
选取多个图像分类网络作为的子网络构建教师网络,对所有子网络softmax层的输入向量进行软化,之后重新加载子网络的模型参数训练得到新的子网络;
获取教师网络中每个子网络的预测标签,并将所有预测标签平均后或者加权平均后做为教师网络输出的软标签;
将ImageNet数据集输入学生网络,采用教师网络的软标签、数据集硬标签及黑盒模型特殊标签指导学生网络训练,得到针对黑盒模型的替代模型,特殊标签为黑盒模型分类任务中与常规数据集分类不同的样本;
采用白盒攻击算法攻击替代模型生成对抗样本序列,并采用对抗样本序列对黑盒模型进行攻击,选取对抗样本序列中攻击成功的对抗样本;
将攻击成功的对抗样本加入黑盒模型的训练集中,并采用更新后的训练集进行对抗训练,生成具备防御攻击的黑盒模型。


2.根据权利要求1所述的基于知识蒸馏的神经网络黑盒攻击型防御方法,其特征在于,对子网络softmax层的输入向量进行软化的计算公式为:



其中,T为温度系数;zi和zj均为输入向量;exp(.)为指数运算;i为当前输入向量的标号;j为所有输入向量的总数;qi为软化后预测标签。


3.根据权利要求1所述的基于知识蒸馏的神经网络黑盒攻击型防御方法,其特征在于,指导学生网络训练过程中,选取三个损失函数,并对三个损失函数加权归一化后作为学生网络的损失函数;三个损失函数分别为:






其中,yh为数据集中样本的硬标签;为数据集中样本的预测硬标签;ys为数据集中样本的软标签,为数据集中样本的预测软标签;ysp为数据集中样本的特殊标签,为数据集中样本的预测特殊标签;
所述替代模型的损失函数为:
L=(1-a-b)×Ls+a×Lh+b×Lsp
当yh=ysp时,b=0,L=(1-a)×Ls+a×Lh;
当yh≠ysp时,a=0,b=1,L=Lsp;
其中,a和b为加权系数...

【专利技术属性】
技术研发人员:崔炜煜王文一李晓锐陈建文
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1