一种深度神经网络对抗攻击的检测方法及装置制造方法及图纸

技术编号：23344894 阅读：54 留言：0更新日期：2020-02-15 04:23

本申请实施例提供了一种深度神经网络对抗攻击的检测方法及装置，方法包括向原始模型中输入正常训练样本获取触发参数不变量；创建派生模型；向派生模型输入正常训练样本获取初始关联不变量；向原始模型中输入检测样本获取观测触发参数；向派生模型中输入检测样本获取观测初始关联参数；根据以上得到的参数和不变量判断检测样本是否为对抗攻击样本。与现有技术相比本申请基于触发参数不变量和初始关联不变量来判断观测触发参数和初始关联参数与前述两个不变量的大小关系，从而能够准确地检测出对抗攻击样本，实现对特定固定及方法的有效防御和检测，同时本申请的对抗攻击检测方法具备普遍性，能够抵御广泛多样的攻击形式。

A detection method and device of deep neural network against attack

全部详细技术资料下载

【技术实现步骤摘要】
一种深度神经网络对抗攻击的检测方法及装置
本公开涉及机器学习
，尤其涉及一种深度神经网络对抗攻击的检测方法和装置。
技术介绍
目前深度神经网络算法(DNN)在各个领域的贡献都很引人注目，成功的将传统神经网络的识别率提高了一个显著的档次。深度神经网络算法(DNN)虽然精确度越来越高，但是深度神经网络(DNN)很容易受到对抗攻击，从而导致DNN模型出现误分类等异常行为。例如，在精度达到人类水平的神经网络上通过优化过程故意构造数据点，这种对抗攻击方法的误差率接近100％。在许多情况下，对抗样本与原始样本非常近似，人类观察者不会察觉原始样本和对抗样本之间的差异，但是网络会作出非常不同的预测。现有的防御和检测技术基于特定假设，虽然能够实现对某种特定攻击方法的有效防御和检测，但往往不具备普遍性，无法抵御广泛多样的攻击形式。
技术实现思路
本申请提供一种深度神经网络对抗攻击的检测方法及装置为解决现有的防御和检测技术基于特定假设，虽然能够实现对某种特定攻击方法的有效防御和检测，但往往不具备普遍性，无法抵御广泛多样的攻击形式的问题。本申请的第一方面，提供一种深度神经网络对抗攻击的检测方法，所述方法包括：向原始模型中输入正常训练样本对所述原始模型进行训练，根据训练结果获取触发参数不变量VI；从所述原始模型中提取多层神经元层作为子模型，向所述子模型中添加归一化指数层，得到派生模型；向所述派生模型输入正常训练样本对所述派生模型进行训练，根据训练结果获取初始关联不变量PI；向所述原始模型中输入检测样本对所述原...

【技术保护点】
1.一种深度神经网络对抗攻击的检测方法，其特征在于，所述方法包括：/n向原始模型中输入正常训练样本对所述原始模型进行训练，根据训练结果获取触发参数不变量VI；/n从所述原始模型中提取多层神经元层作为子模型，向所述子模型中添加归一化指数层，得到派生模型；/n向所述派生模型输入正常训练样本对所述派生模型进行训练，根据训练结果获取初始关联不变量PI；/n向所述原始模型中输入检测样本对所述原始模型进行训练，根据训练结果获取观测触发参数OV；/n向所述派生模型中输入检测样本对所述派生模型进行训练，根据训练结果获取观测初始关联参数OP；/n计算所述观测触发参数OV属于相应所述触发参数不变量VI的触发参数概率DVi，并计算所述触发参数概率DVi的平均值DV；/n计算所述观测初始关联参数OP符合相应所述初始关联不变量PI分布的关联参数概率DPi，并计算所述关联参数概率Dpi的平均值DP；/n当VI/PI属于正态分布时，如果DV/DP小于第一阈值，则判断所述检测样本为对抗攻击样本；/n当VI/PI属于均匀分布时，如果DV/DP小于第二阈值，则判断所述检测样本为对抗攻击样本。/n

【技术特征摘要】
1.一种深度神经网络对抗攻击的检测方法，其特征在于，所述方法包括：
向原始模型中输入正常训练样本对所述原始模型进行训练，根据训练结果获取触发参数不变量VI；
从所述原始模型中提取多层神经元层作为子模型，向所述子模型中添加归一化指数层，得到派生模型；
向所述派生模型输入正常训练样本对所述派生模型进行训练，根据训练结果获取初始关联不变量PI；
向所述原始模型中输入检测样本对所述原始模型进行训练，根据训练结果获取观测触发参数OV；
向所述派生模型中输入检测样本对所述派生模型进行训练，根据训练结果获取观测初始关联参数OP；
计算所述观测触发参数OV属于相应所述触发参数不变量VI的触发参数概率DVi，并计算所述触发参数概率DVi的平均值DV；
计算所述观测初始关联参数OP符合相应所述初始关联不变量PI分布的关联参数概率DPi，并计算所述关联参数概率Dpi的平均值DP；
当VI/PI属于正态分布时，如果DV/DP小于第一阈值，则判断所述检测样本为对抗攻击样本；
当VI/PI属于均匀分布时，如果DV/DP小于第二阈值，则判断所述检测样本为对抗攻击样本。

2.如权利要求1所述的方法，其特征在于，向原始模型中输入正常训练样本对所述原始模型进行训练，根据训练结果获取触发参数不变量VI包括：
向原始模型中输入正常训练样本，以使正常样本在所述原始模型的每一层神经元层中触发参数并训练；
从训练后的所述原始模型中获取每一层神经元层的触发分布作为所述触发参数不变量。

3.如权利要求1所述的方法，其特征在于，从所述原始模型中提取多层神经元层作为子模型，向所述子模型中添加归一化指数层，得到派生模型，包括：
从所述原始模型中提取1至L层的神经元层作为子模型，向所述子模型中添加归一化指数层，得到派生模型。

4.如权利要求1所述的方法，其特征在于，所述归一化指数层和所述原始模型具有相同的输出标签。

5.如权利要求1所述的方法，其特征在于，所述从所述原始模...

【专利技术属性】
技术研发人员：李平，张全，季纯，马东阳，徐理刚，徐伟，
申请(专利权)人：宁夏吉虎科技有限公司，
类型：发明
国别省市：宁夏;64

全部详细技术资料下载我是这个专利的主人