一种深度神经网络对抗攻击的检测方法及装置制造方法及图纸

技术编号:23344894 阅读:54 留言:0更新日期:2020-02-15 04:23
本申请实施例提供了一种深度神经网络对抗攻击的检测方法及装置,方法包括向原始模型中输入正常训练样本获取触发参数不变量;创建派生模型;向派生模型输入正常训练样本获取初始关联不变量;向原始模型中输入检测样本获取观测触发参数;向派生模型中输入检测样本获取观测初始关联参数;根据以上得到的参数和不变量判断检测样本是否为对抗攻击样本。与现有技术相比本申请基于触发参数不变量和初始关联不变量来判断观测触发参数和初始关联参数与前述两个不变量的大小关系,从而能够准确地检测出对抗攻击样本,实现对特定固定及方法的有效防御和检测,同时本申请的对抗攻击检测方法具备普遍性,能够抵御广泛多样的攻击形式。

A detection method and device of deep neural network against attack

【技术实现步骤摘要】
一种深度神经网络对抗攻击的检测方法及装置
本公开涉及机器学习
,尤其涉及一种深度神经网络对抗攻击的检测方法和装置。
技术介绍
目前深度神经网络算法(DNN)在各个领域的贡献都很引人注目,成功的将传统神经网络的识别率提高了一个显著的档次。深度神经网络算法(DNN)虽然精确度越来越高,但是深度神经网络(DNN)很容易受到对抗攻击,从而导致DNN模型出现误分类等异常行为。例如,在精度达到人类水平的神经网络上通过优化过程故意构造数据点,这种对抗攻击方法的误差率接近100%。在许多情况下,对抗样本与原始样本非常近似,人类观察者不会察觉原始样本和对抗样本之间的差异,但是网络会作出非常不同的预测。现有的防御和检测技术基于特定假设,虽然能够实现对某种特定攻击方法的有效防御和检测,但往往不具备普遍性,无法抵御广泛多样的攻击形式。
技术实现思路
本申请提供一种深度神经网络对抗攻击的检测方法及装置为解决现有的防御和检测技术基于特定假设,虽然能够实现对某种特定攻击方法的有效防御和检测,但往往不具备普遍性,无法抵御广泛多样的攻击形式的问题。本申请的第一方面,提供一种深度神经网络对抗攻击的检测方法,所述方法包括:向原始模型中输入正常训练样本对所述原始模型进行训练,根据训练结果获取触发参数不变量VI;从所述原始模型中提取多层神经元层作为子模型,向所述子模型中添加归一化指数层,得到派生模型;向所述派生模型输入正常训练样本对所述派生模型进行训练,根据训练结果获取初始关联不变量PI;向所述原始模型中输入检测样本对所述原始模型进行训练,根据训练结果获取观测触发参数OV;向所述派生模型中输入检测样本对所述派生模型进行训练,根据训练结果获取观测初始关联参数OP;计算所述观测触发参数OV属于相应所述触发参数不变量VI的触发参数概率DVi,并计算所述触发参数概率DVi的平均值DV;计算所述观测初始关联参数OP符合相应所述初始关联不变量PI分布的关联参数概率DPi,并计算所述关联参数概率Dpi的平均值DP;当VI/PI属于正态分布时,如果DV/DP小于第一阈值,则判断所述检测样本为对抗攻击样本;当VI/PI属于均匀分布时,如果DV/DP小于第二阈值,则判断所述检测样本为对抗攻击样本。结合第一方面,在第一种可能的实现方式中,向原始模型中输入正常训练样本对所述原始模型进行训练,根据训练结果获取触发参数不变量VI包括:向原始模型中输入正常训练样本,以使正常样本在所述原始模型的每一层神经元层中触发参数并训练;从训练后的所述原始模型中获取每一层神经元层的触发分布作为所述触发参数不变量。结合第一方面,在第二种可能的实现方式中,从所述原始模型中提取多层神经元层作为子模型,向所述子模型中添加归一化指数层,得到派生模型,包括:从所述原始模型中提取1至L层的神经元层作为子模型,向所述子模型中添加归一化指数层,得到派生模型。结合第一方面,在第三种可能的实现方式中,所述归一化指数层和所述原始模型具有相同的输出标签。结合第一方面,在第四种可能的实现方式中,所述从所述原始模型中提取多层神经元层作为子模型,向所述子模型中添加归一化指数层,得到派生模型,还包括:冻结子模型的触发参数。结合第一方面,在第五种可能的实现方式中,向所述派生模型输入正常训练样本对所述派生模型进行训练,根据训练结果获取初始关联不变量PI,包括:向所述派生模型输入正常训练样本对所述派生模型进行训练,得到训练后的派生模型;从训练后的派生模型获取每一对连续的神经元层之间的分类结果分布,将所述分类结果分布作为初始关联不变量。结合第一方面,在第六种可能的实现方式中,所述第一阈值为0.3,所述第二阈值为0.5。本申请的第二方面,提供一种深度神经网络对抗攻击的检测装置,所述装置包括:触发参数不变量获取模块,用于向原始模型中输入正常训练样本对所述原始模型进行训练,根据训练结果获取触发参数不变量VI;派生模型创建模块,用于从所述原始模型中提取多层神经元层作为子模型,向所述子模型中添加归一化指数层,得到派生模型;初始关联不变量获取模块,用于向所述派生模型输入正常训练样本对所述派生模型进行训练,根据训练结果获取初始关联不变量PI;观测触发参数获取模块,用于向所述原始模型中输入检测样本对所述原始模型进行训练,根据训练结果获取观测触发参数OV;观测初始关联参数获取模块,用于向所述派生模型中输入检测样本对所述派生模型进行训练,根据训练结果获取观测初始关联参数OP;触发参数概率计算模块,用于计算所述观测触发参数OV属于相应所述触发参数不变量VI的触发参数概率DVi,并计算所述触发参数概率DVi的平均值DV;关联参数概率计算模块,用于计算所述观测初始关联参数OP符合相应所述初始关联不变量PI分布的关联参数概率DPi,并计算所述关联参数概率Dpi的平均值DP;样本判断模块,用于当VI/PI属于正态分布时,如果DV/DP小于第一阈值,则判断所述检测样本为对抗攻击样本;当VI/PI属于均匀分布时,如果DV/DP小于第二阈值,则判断所述检测样本为对抗攻击样本。本申请实施例提供的技术方案可以包括以下有益效果:所述方法包括:向原始模型中输入正常训练样本对所述原始模型进行训练,根据训练结果获取触发参数不变量VI;从所述原始模型中提取多层神经元层作为子模型,向所述子模型中添加归一化指数层,得到派生模型;向所述派生模型输入正常训练样本对所述派生模型进行训练,根据训练结果获取初始关联不变量PI;向所述原始模型中输入检测样本对所述原始模型进行训练,根据训练结果获取观测触发参数OV;向所述派生模型中输入检测样本对所述派生模型进行训练,根据训练结果获取观测初始关联参数OP;计算所述观测触发参数OV属于相应所述触发参数不变量VI的触发参数概率DVi,并计算所述触发参数概率DVi的平均值DV;计算所述观测初始关联参数OP符合相应所述初始关联不变量PI分布的关联参数概率DPi,并计算所述关联参数概率Dpi的平均值DP;当VI/PI属于正态分布时,如果DV/DP小于第一阈值,则判断所述检测样本为对抗攻击样本;当VI/PI属于均匀分布时,如果DV/DP小于第二阈值,则判断所述检测样本为对抗攻击样本。与现有技术相比本申请通过将正常训练样本训练过的原始模型、派生模型得到的触发参数不变量和初始关联不变量,再通过将检测样本训练过的原始模型、派生模型得到与检测样本关联的观测触发参数和初始关联参数,基于触发参数不变量和初始关联不变量来判断观测触发参数和初始关联参数与前述两个不变量的大小关系,从而能够准确地检测出对抗攻击样本,实现对特定固定及方法的有效防御和检测,同时本申请的对抗攻击检测方法具备普遍性,能够抵御广泛多样的攻击形式。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。图1为本申请实施例提供的深度神经网络对抗攻击的检测方法的工作流程示意图;图2是本申请本文档来自技高网...

【技术保护点】
1.一种深度神经网络对抗攻击的检测方法,其特征在于,所述方法包括:/n向原始模型中输入正常训练样本对所述原始模型进行训练,根据训练结果获取触发参数不变量VI;/n从所述原始模型中提取多层神经元层作为子模型,向所述子模型中添加归一化指数层,得到派生模型;/n向所述派生模型输入正常训练样本对所述派生模型进行训练,根据训练结果获取初始关联不变量PI;/n向所述原始模型中输入检测样本对所述原始模型进行训练,根据训练结果获取观测触发参数OV;/n向所述派生模型中输入检测样本对所述派生模型进行训练,根据训练结果获取观测初始关联参数OP;/n计算所述观测触发参数OV属于相应所述触发参数不变量VI的触发参数概率DVi,并计算所述触发参数概率DVi的平均值DV;/n计算所述观测初始关联参数OP符合相应所述初始关联不变量PI分布的关联参数概率DPi,并计算所述关联参数概率Dpi的平均值DP;/n当VI/PI属于正态分布时,如果DV/DP小于第一阈值,则判断所述检测样本为对抗攻击样本;/n当VI/PI属于均匀分布时,如果DV/DP小于第二阈值,则判断所述检测样本为对抗攻击样本。/n

【技术特征摘要】
1.一种深度神经网络对抗攻击的检测方法,其特征在于,所述方法包括:
向原始模型中输入正常训练样本对所述原始模型进行训练,根据训练结果获取触发参数不变量VI;
从所述原始模型中提取多层神经元层作为子模型,向所述子模型中添加归一化指数层,得到派生模型;
向所述派生模型输入正常训练样本对所述派生模型进行训练,根据训练结果获取初始关联不变量PI;
向所述原始模型中输入检测样本对所述原始模型进行训练,根据训练结果获取观测触发参数OV;
向所述派生模型中输入检测样本对所述派生模型进行训练,根据训练结果获取观测初始关联参数OP;
计算所述观测触发参数OV属于相应所述触发参数不变量VI的触发参数概率DVi,并计算所述触发参数概率DVi的平均值DV;
计算所述观测初始关联参数OP符合相应所述初始关联不变量PI分布的关联参数概率DPi,并计算所述关联参数概率Dpi的平均值DP;
当VI/PI属于正态分布时,如果DV/DP小于第一阈值,则判断所述检测样本为对抗攻击样本;
当VI/PI属于均匀分布时,如果DV/DP小于第二阈值,则判断所述检测样本为对抗攻击样本。


2.如权利要求1所述的方法,其特征在于,向原始模型中输入正常训练样本对所述原始模型进行训练,根据训练结果获取触发参数不变量VI包括:
向原始模型中输入正常训练样本,以使正常样本在所述原始模型的每一层神经元层中触发参数并训练;
从训练后的所述原始模型中获取每一层神经元层的触发分布作为所述触发参数不变量。


3.如权利要求1所述的方法,其特征在于,从所述原始模型中提取多层神经元层作为子模型,向所述子模型中添加归一化指数层,得到派生模型,包括:
从所述原始模型中提取1至L层的神经元层作为子模型,向所述子模型中添加归一化指数层,得到派生模型。


4.如权利要求1所述的方法,其特征在于,所述归一化指数层和所述原始模型具有相同的输出标签。


5.如权利要求1所述的方法,其特征在于,所述从所述原始模...

【专利技术属性】
技术研发人员:李平张全季纯马东阳徐理刚徐伟
申请(专利权)人:宁夏吉虎科技有限公司
类型:发明
国别省市:宁夏;64

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1