基于神经网络中间层正则化的黑盒攻击型防御系统及方法技术方案

技术编号:27608258 阅读:12 留言:0更新日期:2021-03-10 10:33
本发明专利技术涉及人工智能安全领域,具体是基于神经网络中间层正则化的黑盒攻击型防御系统,包括第一源模型、第二源模型和第三源模型;基于神经网络中间层正则化的黑盒攻击型防御方法,包括S1、将图片输入第一源模型进行白盒攻击,输出第一对抗样本序列,S2、将第一对抗样本序列输入到第二源模型中,输出第二对抗样本序列,S3、将第二对抗样本序列输入到第三源模型中进行黑盒攻击,输出第三识别样本序列,S4、将第三识别样本序列输入第三源模型进行对抗训练,更新第三源模型;利用该算法生成的对抗样本具有对目标模型高迁移性的特性,也可以有效的通过对抗训练防御目标模型被攻击。的通过对抗训练防御目标模型被攻击。的通过对抗训练防御目标模型被攻击。

【技术实现步骤摘要】
基于神经网络中间层正则化的黑盒攻击型防御系统及方法


[0001]本专利技术涉及人工智能安全领域,具体是指基于神经网络中间层正则化的黑盒攻击型防御系统及方法。

技术介绍

[0002]当对图像信号添加微小扰动,被添加扰动的图像信号输入用于分类任务的卷积神经网络时,会被该网络识别错误,该技术应用广泛,在车辆检测系统中,通过对车牌号图像进行微小扰动的方式欺骗车辆检测系统,有助于提升车辆检测系统鲁棒性和稳健性;在人脸识别检测系统中,通过对人脸图像进行微小扰动的方式欺骗人脸识别检测系统,有助于检验人脸识别网络的鲁棒性和安全性;在无人驾驶系统中,通过对路标图像进行微小扰动的方式欺骗自动驾驶系统,有助于检验机器视觉中物体分类和目标检测网络的稳健性和安全性,随着5G时代的到来,图像视频数据将成为主流网络数据,神经网络攻击生成图像对抗样本技术,在网络对抗领域扮演关键角色,对防御算法性能的提升有着重要作用。
[0003]现在比较常见的攻击方式为黑盒攻击和白盒攻击,其中黑盒攻击分为基于迁移性的训练替代模型攻击方式,以及基于决策的多次查询估计梯度攻击方式,二者在生成接近黑盒模型的替代模型后和估计接近黑盒模型梯度后,利用主流的白盒攻击的方法来进行攻击,前者在训练替代模型时多数需要得知被攻击模型的训练数据集,以及输入输出等除模型内部参数以外的众多信息,而这些信息特别是训练数据集在实际应用中是很难得知的,或者是被限制获取数量的,所以通过以上方式生成替代模型的方法在很多情况下是有所限制的,后者通过对对抗模型多次进行查询输入输出并且估计梯度,当查询次数足够多时估计得到的梯度将接近对抗模型的真实梯度以获得决策边界,但是该方法的问题是当多次查询带来的计算复杂度,同时在限制查询次数的黑盒模型中无法得到进展,从而严重影响了黑盒攻击的效率。

技术实现思路

[0004]基于以上问题,本专利技术提供了基于神经网络中间层正则化的黑盒攻击型防御系统及方法,该攻击算法不需生成替代模型,也无需获取查询黑盒模型的数据集及对应标签,便可对黑盒模型进行攻击,在图像分类任务中,利用该算法生成的对抗样本具有对目标模型高迁移性的特性,也可以有效的通过对抗训练防御目标模型被攻击。
[0005]为解决以上技术问题,本专利技术采用的技术方案如下:
[0006]基于神经网络中间层正则化的黑盒攻击型防御系统,包括
[0007]第一源模型,用于输出第一对抗样本序列;
[0008]第二源模型,用于输出第二对抗样本序列;
[0009]第三源模型,用于输出第三识别样本序列,并将第三识别样本序列输入第三源模型进行对抗训练,更新第三源模型。
[0010]进一步,所述第一源模型和第二源模型采用以残差模块为基础的ResNet网络,第
三源模型采用DenseNet网络,所述第二源模型划分不同的神经网络结构层,所述第二源模型的每一层均加入正则化损失函数。
[0011]基于神经网络中间层正则化的黑盒攻击型防御方法,采用基于神经网络中间层正则化的黑盒攻击型防御系统,包括
[0012]S1、将图片输入第一源模型进行白盒攻击,输出第一对抗样本序列;
[0013]S2、将第一对抗样本序列输入到第二源模型中,在第二源模型的每一层均利用正则化损失函数对第一对抗样本序列进行攻击,输出第二对抗样本序列;
[0014]S3、将第二对抗样本序列输入到第三源模型中进行黑盒攻击,输出第三识别样本序列;
[0015]S4、将第三识别样本序列输入第三源模型进行对抗训练,更新第三源模型。
[0016]进一步,所述步骤S2中,正则化损失函数对第一对抗样本序列进行攻击包括如下两方面:
[0017]一方面为找出生成的第二对抗样本序列中的最优扰动方向;
[0018]另一方面为过滤对抗扰动的高频成分,在第二源模型的每一层都产生与第一对抗样本序列对应的输出,生成一组对抗样本,在该生成的对抗样本中选取最优层的对抗样本作为第二对抗样本序列。
[0019]进一步,找出生成的第二对抗样本序列的最优扰动方向的公式为
[0020]L1=[f
t
(x')-f
t
(x)]*[f
t
(x”)-f
t
(x)][0021]其中,L1的结果为第二对抗样本序列的扰动方向,f
t
(x)为第一对抗样本序列经过第二源模型第t层的输出结果,[f
t
(x')-f
t
(x)]为第一对抗样本序列的扰动,[f
t
(x”)-f
t
(x)]表征的扰动方向以基础扰动方向做指引;
[0022]过滤对抗扰动的高频成分的公式为
[0023]L2=F[f
t
(x”)-f
t
(x)][0024]其中,L2的结果为过滤对抗扰动的高频成分,F()为正则化函数;
[0025]正则化损失函数L的公式为
[0026]L=-L1-L2。
[0027]与现有技术相比,本专利技术的有益效果是:
[0028]1、利用第二源模型中每一层添加正则化损失函数的方法攻击第一对抗样本序列,解决了使用传统方法的多次查询带来的计算复杂度较高的问题。
[0029]2、第二源模型中每一层添加正则化损失函数攻击第一对抗样本序列,一方面旨在寻找迁移性最强的最优决策方向,另一方面过滤对抗扰动的高频成分,增强与传统方法相比生成对抗样本的迁移性。
[0030]3、通过对第三源模型添加对抗训练,解决了传统方法对抗样本迁移质量差并且强度低的问题,使得对抗训练更加鲁棒。
附图说明
[0031]图1为本实施例的流程图。
具体实施方式
[0032]下面结合附图对本专利技术作进一步的说明。本专利技术的实施方式包括但不限于下列实施例。
[0033]基于神经网络中间层正则化的黑盒攻击型防御系统,包括:
[0034]第一源模型,采用以残差模块为基础的ResNet网络,该第一源模型在本实施例中采用白盒攻击方式进行攻击,最终输出第一对抗样本序列,以输入原始图片为例,输入一组原始图片,利用白盒攻击方法添加适当的对抗扰动对该第一源模型进行攻击,生成第一对抗样本序列,该第一对抗样本序列也有一定的迁移性,但针对第二源模型来讲,因为第一对抗样本序列的决策方向并不是迁移性最强的方向,因此,第一对抗样本序列并不为迁移最优的对抗样本,另外,本实施例中攻击模式分为无目标及有目标两种攻击模式,对于无目标攻击模式,即只要攻击后的预测标签不是攻击前的标签就可以,首先向损失函数最大化的方向等步长进行梯度上升,并且在每次梯度上升时对输入原始图片进行相应的微扰,生成相对应的第一对抗样本序列,对于有目标攻击模式,即攻击后的预测标签必须是指定的标签,首先向损失函数最小化的方向等步长进行梯度下降,并且在每次梯度下降时对输入原始图片进行相应的微扰,生成相应额的第一对抗样本序列;
[0035]第二源模型,采本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于神经网络中间层正则化的黑盒攻击型防御系统,其特征在于:包括第一源模型,用于输出第一对抗样本序列;第二源模型,用于输出第二对抗样本序列;第三源模型,用于输出第三识别样本序列,并将第三识别样本序列输入第三源模型进行对抗训练,更新第三源模型。2.根据权利要求1所述的基于神经网络中间层正则化的黑盒攻击型防御系统,其特征在于:所述第一源模型和第二源模型采用以残差模块为基础的ResNet网络,第三源模型采用DenseNet网络,所述第二源模型划分不同的神经网络结构层,所述第二源模型的每一层均加入正则化损失函数。3.基于神经网络中间层正则化的黑盒攻击型防御方法,采用权利要求1~2所述的基于神经网络中间层正则化的黑盒攻击型防御系统,其特征在于:包括S1、将图片输入第一源模型进行白盒攻击,输出第一对抗样本序列;S2、将第一对抗样本序列输入到第二源模型中,在第二源模型的每一层均利用正则化损失函数对第一对抗样本序列进行攻击,输出第二对抗样本序列;S3、将第二对抗样本序列输入到第三源模型中进行黑盒攻击,输出第三识别样本序列;S4、将第三识别样本序列输入第三源模型进行对抗训练,更新第三源模型。4.根据权利要求3所述的基于神经网络中间层正则化的黑盒攻击型防御方法,其特征在于:所述步骤S2中,正则化损失函数对第一对抗样本序列进行攻击包括如下两...

【专利技术属性】
技术研发人员:李晓锐崔炜煜王文一陈建文
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1