一种基于网络防御的模型处理方法、装置及存储介质制造方法及图纸

技术编号:29674190 阅读:14 留言:0更新日期:2021-08-13 21:56
本申请公开了一种基于网络防御的模型处理方法、装置及存储介质,涉及神经网络的防御方法,包括:获取与目标模型满足相似度要求的替代模型;采用预设攻击方式攻击替代模型,生成对抗样本;根据对抗样本以及预设算法,计算获取差分隐私噪声参数;根据差分隐私噪声参数,在目标模型的输出层添加差分隐私噪声层,获取优化的目标模型。在该方法中,通过攻击替代模型生成对抗样本,并利用对抗样本以及预设算法,计算获取差分隐私噪声参数;最终在目标模型的输出层添加差分隐私噪声层,得到了优化后的目标模型,由于替代模型和目标模型的决策边缘相似,攻击替代模型生成的对抗样本具有较好的迁移性,提高了目标模型对抗各种攻击的成功率。

【技术实现步骤摘要】
一种基于网络防御的模型处理方法、装置及存储介质
本专利技术涉及神经网络的防御方法,具体涉及一种基于网络防御的模型处理方法、装置及存储介质。
技术介绍
深度学习(DeepLearning,简称DL)是机器学习(MachineLearning,简称ML)的一个分支,通过使计算机从经验和知识中学习而不需要明确的编程,并从原始数据中提取有用的模式的机器学习方法。对于传统的机器学习算法,由于其局限性,例如维度诅咒、计算瓶颈等,难以提取出表征良好的特征。深度学习通过构建多个简单的特征来表示一个复杂的概念来解决表示问题。例如,一个基于深度学习的图像分类系统通过描述隐藏层中的边缘和结构来表示一个对象。随着可用训练数据的增加,深度学习的性能变得更加强大。深度学习模型借助硬件加速计算时间,已经可以解决许多复杂问题。目前,随着深度学习的发展,深度神经网络(DeepNeuralNetworks,简称DNN)已经在很多领域可以达到优于人类的效果,例如计算机视觉、语音识别、自然语言处理、机器翻译、自动驾驶等领域。然而伴随着DNN在众多领域被应用,最近也很多研究开始关注DNN的安全性。目前已经有很多在深度学习领域的工作表明DNN在对抗样本中的潜在脆弱性。在图像分类中,对抗样本是一个经过精心修改的图像,人类的视觉对扰动并不敏感(人眼难以发现对抗样本与其对应原始图像的区别),但对抗样本却可能导致DNN模型对其误分类。比如,通过在一张猫的图像上加特定的噪声生成对抗样本,在人看来,生成的对抗样本并无区别,还是一只猫。但是如果将对抗样本输入一个已经训练好的分类器,分类器会判定该张图像是一只狗。除了分类器,大量基于DNN的应用程序已经在物理世界中使用或计划部署,特别是在安全关键环境中。同时,最近的研究表明,对抗样本可以应用于现实世界。例如,攻击者可以构造一个物理对抗样本(区别于数字对抗样本),通过操纵交通标志识别系统中的停车标志来欺骗自动驾驶汽车。对抗性攻击根据暴露给攻击者的目标模型信息可分为白盒攻击和黑盒攻击。在大部分情况下,由于白盒攻击能获得比黑盒攻击更丰富的信息,所以在各种应用中,白盒攻击往往比黑盒攻击获得更高的攻击成功率。但是从现实情况下考虑,大部分的攻击实施环境都是黑盒环境,黑盒攻击与白盒攻击相比有更多的现实意义。目前的对抗防御方法,主要分为两种防御策略:反应型:在深度神经网络构建后检测对抗样本。主动型:在攻击者生成对抗样本之前使深度神经网络更鲁棒。反应型对策主要包含三种方法:对抗检测、输入重构和网络验证。主动型对策包含三种方法:网络蒸馏、对抗训练和分类器鲁棒。但是目前的防御方法,只针对某种攻击有较好的效果,需要针对不同攻击进行设计,成本高且效果不佳。
技术实现思路
鉴于上述,本专利技术的目的是提供一种基于网络防御的模型处理方法、装置及存储介质,以实现对目标模型的防御。为实现上述目的,本专利技术采用的技术方案为:第一方面,本专利技术实施例提供一种基于网络防御的模型处理方法,包括:获取与目标模型满足相似度要求的替代模型;采用预设攻击方式攻击所述替代模型,生成对抗样本;根据所述对抗样本以及预设算法,计算获取差分隐私噪声参数;根据所述差分隐私噪声参数,在所述目标模型的输出层添加差分隐私噪声层,获取优化的目标模型。可选地,所述获取与目标模型满足相似度要求的替代模型,包括:根据所述目标模型的输出类型,搭建初始替代模型;将待分类数据输入所述目标模型,输出获取所述待分类数据对应的标记信息;根据所述待分类数据对应的标记信息以及所述待分类数据,获取训练数据集;采用所述训练数据集训练所述初始替代模型,获取所述替代模型。可选地,所述采用预设攻击方式攻击所述替代模型,生成对抗样本,包括:采用白盒攻击方法攻击所述替代模型,生成所述对抗样本。可选地,所述根据所述对抗样本以及预设算法,计算获取差分隐私噪声参数,包括:采用公式计算获取差分隐私噪声参数其中,i表示所述目标模型的第i类样本,j表示所述目标模型的第j类样本,x表示所述目标模型的测试样本,ε为隐私保护预算,C表示所述目标模型数据集的类别数,f(i)(x)表示所述目标模型的测试样本x被所述目标模型分类为第i类的概率,e表示自然底数,s(f,||·||)表示得分函数f(·)的敏感度,定义为:其中,z表示所述目标模型的样本,z′表示所述对抗样本,f(i)(z)表示输入为数据样本z、输出为第i类样本时的输出概率,f(i)(z′)表示输入为数据样本z′、输出为第i类样本时的输出概率,zi、zj表示同一类别的不同样本,p表示范数,ρ表示常数。可选地,所述根据所述差分隐私噪声参数,在所述目标模型的输出层添加差分隐私噪声层,获取优化的目标模型之后,所述方法还包括:通过评价指标算法,测试所述目标模型的防御攻击性。可选地,所述通过评价指标算法,测试所述目标模型的防御攻击性,包括:采用评价公式计算获取所述目标模型评价指标ASR;其中,nright表示所述目标模型在对抗攻击前,正确分类的样本数,nadv表示被所述目标模型分类正确的样本中被攻击成功的所述对抗样本数。第二方面,本专利技术实施例提供了一种基于网络防御的模型处理装置,包括:获取单元、生成单元、计算单元以及添加单元;所述获取单元用于获取与目标模型满足相似度要求的替代模型;所述生成单元用于采用预设攻击方式攻击所述替代模型,生成对抗样本;所述计算单元用于根据所述对抗样本以及预设算法,计算获取差分隐私噪声参数;所述添加单元用于根据所述差分隐私噪声参数,在所述目标模型的输出层添加差分隐私噪声层,获取优化的目标模型。可选地,所述获取单元用于根据所述目标模型的输出类型,搭建初始替代模型;将待分类数据输入所述目标模型,输出获取所述待分类数据对应的标记信息;根据所述待分类数据对应的标记信息以及所述待分类数据,获取训练数据集;采用所述训练数据集训练所述初始替代模型,获取所述替代模型。可选地,所述生成单元用于采用白盒攻击攻击所述替代模型,生成所述对抗样本。可选地,所述计算单元用于采用公式计算获取差分隐私噪声参数其中,i表示所述目标模型的第i类样本,j表示所述目标模型的第j类样本,x表示所述目标模型的测试样本数,ε为隐私保护预算,C表示所述目标模型数据集的类别数,f(i)(x)表示所述目标模型的测试样本x被所述目标模型分类为第i类的概率,e表示自然底数,s(f,||·||)表示得分函数f(·)的敏感度,定义为:其中,z表示所述目标模型的样本,z′表示所述对抗样本,f(i)(z)表示输入为数据样本z、输出为第i类样本时的输出概率,f(i)(z′)表示输入为数据样本z′、输出为第i类样本时的输出概率,zi、zj表示同一类别的不同样本,p表示范数,ρ表示常数。可选地,所述装置还包括:评价单元;所述评价单元用于通过评价指标算法,测试所本文档来自技高网
...

【技术保护点】
1.一种基于网络防御的模型处理方法,其特征在于,包括:/n获取与目标模型满足相似度要求的替代模型;/n采用预设攻击方式攻击所述替代模型,生成对抗样本;/n根据所述对抗样本以及预设算法,计算获取差分隐私噪声参数;/n根据所述差分隐私噪声参数,在所述目标模型的输出层添加差分隐私噪声层,获取优化的目标模型。/n

【技术特征摘要】
1.一种基于网络防御的模型处理方法,其特征在于,包括:
获取与目标模型满足相似度要求的替代模型;
采用预设攻击方式攻击所述替代模型,生成对抗样本;
根据所述对抗样本以及预设算法,计算获取差分隐私噪声参数;
根据所述差分隐私噪声参数,在所述目标模型的输出层添加差分隐私噪声层,获取优化的目标模型。


2.根据权利要求1所述的基于网络防御的模型处理方法,其特征在于,所述获取与目标模型满足相似度要求的替代模型,包括:
根据所述目标模型的输出类型,搭建初始替代模型;
将待分类数据输入所述目标模型,输出获取所述待分类数据对应的标记信息;
根据所述待分类数据对应的标记信息以及所述待分类数据,获取训练数据集;
采用所述训练数据集训练所述初始替代模型,获取所述替代模型。


3.根据权利要求2所述的基于网络防御的模型处理方法,其特征在于,所述采用预设攻击方式攻击所述替代模型,生成对抗样本,包括:
采用白盒攻击方法攻击所述替代模型,生成所述对抗样本。


4.根据权利要求1所述的基于网络防御的模型处理方法,其特征在于,所述根据所述对抗样本以及预设算法,计算获取差分隐私噪声参数,包括:
采用公式计算获取差分隐私噪声参数
其中,i表示所述目标模型的第i类样本,j表示所述目标模型的第j类样本,x表示所述目标模型的测试样本数,ε为隐私保护预算,C表示目标模型数据集的类别数,f(i)(x)表示所述目标模型的测试样本x被所述目标模型分类为第i类的概率,e表示自然底数,s(f,||·||)表示得分函数f(·)的敏感度,定义为:



其中,z表示所述目标模型的样本,z′表示所述对抗样本,f(i)(z)表示输入为数据样本z、输出为第i类样本时的输出概率,f(i)(z′)表示输入为数据样本z′、输出为第i类样本时的输出概率,zi、zj表示同一类别的不同样本,p表示范数,ρ表示常数。


5.根据权利要求1所述的基于网络防御的模型处理方法,其特征...

【专利技术属性】
技术研发人员:陈晋音上官文昌吴长安宣琦
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1