基于神经网络模型的自适应黑盒对抗攻击方法技术

技术编号:26419051 阅读:26 留言:0更新日期:2020-11-20 14:14
本发明专利技术公开了一种基于神经网络模型的自适应黑盒对抗攻击方法,属于对抗攻击领域。本发明专利技术包括:选取适应性分布并初始化其参数;在适应性分布中采样,并根据采样结果构造对抗样本;将对抗样本输入神经网络模型中,获取与该对抗样本对应的预测类别,并判断是否攻击成功,若失败,则计算对抗样本的对抗损失,并计算适应性分布下对抗损失的数学期望对适应性分布参数的梯度,并利用其更新适应性分布的参数,然后重新采样,若成功,则判断对抗样本对神经网络模型进行攻击的次数是否在规定次数范围内,若在,则攻击有效,否则,攻击无效。

【技术实现步骤摘要】
基于神经网络模型的自适应黑盒对抗攻击方法
本专利技术涉及对抗攻击领域,尤其涉及一种基于神经网络模型的自适应黑盒对抗攻击方法。
技术介绍
近年来,深度学习的快速发展使得深度神经网络模型在多种视觉识别任务上都取得了显著的成果,比如图像分类、目标检测和语义分割等。但在对抗攻击领域中的研究表明,通过向图片中的部分像素添加微小的扰动,就能让强大的神经网络模型产生错误的预测结果,这样的图片被称作对抗样本。对抗样本的存在严重限制了深度学习技术的应用。根据攻击者对目标模型的了解程度,现有的对抗攻击方法可分为如下两类:1)白盒攻击方法:白盒攻击方法假设攻击者能够获取到目标模型的全部信息,包括模型结构、模型参数和训练数据等。在白盒攻击情景下,攻击者可在目标模型上执行反向传播并利用获得的梯度信息生成对抗样本。较有代表性的白盒攻击方法包括FGSM、JSMA和C&W等。2)黑盒攻击方法:黑盒攻击方法假设攻击者不能获取到目标模型的内部信息,仅能向目标模型发起有限次查询并得到相应的查询结果。由于黑盒攻击情景下攻击者无法获取模型梯度信息,因此黑盒攻击方法一般借助对抗样本的迁移性、梯度估计或无梯度优化算法实现。由于自动驾驶系统需要以多种视觉识别任务为支撑,而这些视觉识别任务通常采用深度学习技术实现,因此自动驾驶系统也容易受到对抗样本的攻击。自动驾驶系统作为一种安全关键应用,其对健壮性和可靠性的要求十分严格,这意味着研究针对自动驾驶系统的对抗攻击方法有着极为重要的应用价值。现有的针对自动驾驶系统的攻击方法主要关注白盒攻击情景,其假设攻击者了解目标模型的结构和参数,然而实际上这些模型内部信息往往无从获取。
技术实现思路
本专利技术的目的是提供一种基于神经网络模型的自适应黑盒对抗攻击方法,能够在未知目标模型实现细节的条件下完成对抗攻击。本专利技术解决其技术问题,采用的技术方案是:基于神经网络模型的自适应黑盒对抗攻击方法,包括如下步骤:步骤1、选取适应性分布并初始化其参数;步骤2、在适应性分布中采样,并根据采样结果构造对抗样本;步骤3、将所述对抗样本输入神经网络模型中,获取与该对抗样本对应的预测类别,并判断是否攻击成功,若攻击失败,则进入步骤4,若攻击成功,则判断对抗样本对神经网络模型进行攻击的次数是否在规定次数范围内,若在,则攻击有效,否则,攻击无效;对于无目标攻击,攻击成功是指对抗样本的预测类别与原图片所属类别不同,对于有目标攻击,攻击成功是指对抗样本的预测类别为预先指定的目标类别;步骤4、计算所述对抗样本的对抗损失,并计算适应性分布下对抗损失的数学期望对适应性分布参数的梯度,并利用其更新适应性分布的参数,然后返回步骤2。进一步的是,步骤1具体包括如下步骤:步骤101、选取一种带有可学习参数的二维连续型概率分布作为适应性分布;步骤102、为适应性分布的参数设置合适的初始值,使采样结果能够处于合理的区间内。进一步的是,步骤101中,所述二维连续型概率分布包括二维独立正态分布和二维独立拉普拉斯分布;所述二维独立正态分布的概率密度函数为:其中,下标i表示相应向量的第i个分量,x表示输入变量,μ表示该分布的均值,且μ是可学习的,σ表示方差,且σ是固定的,μ设置的初始值为(0,0),σ设置的初始值为(0.5,0.5);所述二维独立拉普拉斯分布的概率密度函数为:其中,μ′表示该分布的均值,且μ′是可学习的,σ′表示方差,且σ′是固定的,μ′设置的初始值为(0,0),σ′设置的初始值为(0.6,0.6)。进一步的是,步骤2中,所述适应性分布能够为搜索空间中不同位置分配不同的采样概率,使采样结果更有可能取得较大的对抗损失;步骤2具体包括如下步骤:步骤201、建立二维直角坐标系,该坐标系中,以图片的左上角作为原点,以图片的上侧边所在直线向右作为横轴的正半轴,以图片的左侧边所在直线向下作为纵轴的正半轴;步骤202、从适应性分布中采样得到图片上的某处位置,并将其转换为像素坐标(w,h),其中,w为像素的横坐标,h为像素的纵坐标,且w和h均为整数;其中,所述采样结果为(-1,1)区间内的浮点数,记采样结果为l=(l1,l2),图片的宽度和高度分别为W和H,则采样结果通过如下公式转换为像素的位置(w,h):其中,l1表示采样结果的横坐标,l2表示采样结果的纵坐标;步骤203、在采样位置上构造新的扰动rnew以生成对抗样本其中,所述新的扰动在上一轮迭代中扰动的基础上构造,构造新的扰动时确保其幅值等于可允许的最大扰动幅值∈。进一步的是,根据衡量扰动幅值的范数,提供L∞和L2两种构造方式:采用L∞方式构造扰动时,采样一个边长为S且中心点位置为(w,h)的正方形区域A,并在每一个颜色通道c中分别随机选取{-∈,∈}中的一个填充所述区域A得到新的扰动rnew,对于RGB图片,c可取1,2,3,rnew的其余区域均与上一轮迭代中的扰动rold保持一致:其中,表示在所给集合中随机采样,1s×s表示大小为S×S的全1矩阵;采用L2方式构造扰动时,采样两个边长为S的正方形区域A1和A2,其中心点位置分别为(w1,h1)和(w2,h2);首先在每个颜色通道c中应用如下规则调整所述区域A1处的扰动对于RGB图片,c可取1,2,3:其中并且其中,表示在所给集合中随机w采样,表示正方形边长的一半;随后进一步调整所述区域A1处的扰动使得新的扰动rnew的幅值等于可允许的最大扰动幅值∈:其中其中,C表示颜色通道数量;最后设置所述区域A2处的扰动为0,并保持rnew的其余区域均与上一轮迭代中的扰动rold保持一致。进一步的是,步骤3和4中,将所述对抗样本输入神经网络模型中,获取与该对抗样本对应的预测类别后,计算所述对抗样本的对抗损失,其具体包括如下步骤:步骤301、记神经网络模型为d为输入图片的维度,Q为数据集中的图片类别总数,目标模型f对输入图片x的输出为f(x),fq(x)为f(x)的第q个分量,表示图片x属于类别q的置信度得分,图片x的预测类别可表示为:步骤302、将对抗样本输入到神经网络模型f中获取输出结果步骤303、根据神经网络模型的输出结果计算对抗损失进一步的是,步骤303中,采用铰链损失作为所述对抗损失,此时,对于无目标攻击对抗损失为:对于指定目标类别为t的有目标攻击,其对抗损失为:进一步的是,步骤4中,计算适应性分布下对抗损失的数学期望对适应性分布参数的梯度,其具体包括如下步骤:步骤401、随着迭代的进行,适应性分布的概率峰值逐渐集中于预期取得较大对抗损失的位置上,故将对抗损失的数学期望作为需最大化的目标函数:其中,r表示根据采样结果构造的扰动,πω表示参数为ω的适应性分布;步骤本文档来自技高网
...

【技术保护点】
1.基于神经网络模型的自适应黑盒对抗攻击方法,其特征在于,包括如下步骤:/n步骤1、选取适应性分布并初始化其参数;/n步骤2、在适应性分布中采样,并根据采样结果构造对抗样本;/n步骤3、将所述对抗样本输入神经网络模型中,获取与该对抗样本对应的预测类别,并判断是否攻击成功,若攻击失败,则进入步骤4,若攻击成功,则判断对抗样本对神经网络模型进行攻击的次数是否在规定次数范围内,若在,则攻击有效,否则,攻击无效;/n对于无目标攻击,攻击成功是指对抗样本的预测类别与原图片所属类别不同,对于有目标攻击,攻击成功是指对抗样本的预测类别为预先指定的目标类别;/n步骤4、计算所述对抗样本的对抗损失,并计算适应性分布下对抗损失的数学期望对适应性分布参数的梯度,并利用其更新适应性分布的参数,然后返回步骤2。/n

【技术特征摘要】
1.基于神经网络模型的自适应黑盒对抗攻击方法,其特征在于,包括如下步骤:
步骤1、选取适应性分布并初始化其参数;
步骤2、在适应性分布中采样,并根据采样结果构造对抗样本;
步骤3、将所述对抗样本输入神经网络模型中,获取与该对抗样本对应的预测类别,并判断是否攻击成功,若攻击失败,则进入步骤4,若攻击成功,则判断对抗样本对神经网络模型进行攻击的次数是否在规定次数范围内,若在,则攻击有效,否则,攻击无效;
对于无目标攻击,攻击成功是指对抗样本的预测类别与原图片所属类别不同,对于有目标攻击,攻击成功是指对抗样本的预测类别为预先指定的目标类别;
步骤4、计算所述对抗样本的对抗损失,并计算适应性分布下对抗损失的数学期望对适应性分布参数的梯度,并利用其更新适应性分布的参数,然后返回步骤2。


2.根据权利要求1所述的基于神经网络模型的自适应黑盒对抗攻击方法,其特征在于,步骤1具体包括如下步骤:
步骤101、选取一种带有可学习参数的二维连续型概率分布作为适应性分布;
步骤102、为适应性分布的参数设置合适的初始值,使采样结果能够处于合理的区间内。


3.根据权利要求2所述的基于神经网络模型的自适应黑盒对抗攻击方法,其特征在于,步骤101中,所述二维连续型概率分布包括二维独立正态分布和二维独立拉普拉斯分布;所述二维独立正态分布的概率密度函数为:



其中,x,σ,下标i表示相应向量的第i个分量,x表示输入变量,μ表示该分布的均值,且μ是可学习的,σ表示方差,且σ是固定的,μ设置的初始值为(0,0),σ设置的初始值为(0.5,0.5);
所述二维独立拉普拉斯分布的概率密度函数为:



其中,x,σ′,μ′表示该分布的均值,且μ′是可学习的,σ′表示方差,且σ′是固定的,μ′设置的初始值为(0,0),σ′设置的初始值为(0.6,0.6)。


4.根据权利要求1所述的基于神经网络模型的自适应黑盒对抗攻击方法,其特征在于,步骤2中,所述适应性分布能够为搜索空间中不同位置分配不同的采样概率,使采样结果更有可能取得较大的对抗损失;
步骤2具体包括如下步骤:
步骤201、建立二维直角坐标系,该坐标系中,以图片的左上角作为原点,以图片的上侧边所在直线向右作为横轴的正半轴,以图片的左侧边所在直线向下作为纵轴的正半轴;
步骤202、从适应性分布中采样得到图片上的某处位置,并将其转换为像素坐标(w,h),其中,w为像素的横坐标,h为像素的纵坐标,且w和h均为整数;
其中,所述采样结果为(-1,1)区间内的浮点数,记采样结果为l=(l1,l2),图片的宽度和高度分别为W和H,则采样结果通过如下公式转换为像素的位置(w,h):



其中,l1表示采样结果的横坐标,l2表示采样结果的纵坐标;
步骤203、在采样位置上构造新的扰动rnew以生成对抗样本
其中,所述新的扰动在上一轮迭代中扰动的基础上构造,构造新的扰动时确保其幅值等于可允许的最大扰动幅值∈。


5.根据权利要求4所述的基于神经网络模型的自适应黑盒对抗攻击方法,其特征在于,根据衡量扰动幅值的范数,提供L∞和L2两种构造方式:
采用L∞方式构造扰动时,采样一个边长为S且中心点位置为(w,h)的正方形区域A,并在每一个颜色通道c中分别随机选取{-∈,∈}中的一个填充所述区域A得到新的扰动rnew,对于RGB图片,c可取1,2,3,rnew的其余区域均与上一轮迭代中的扰动rold保...

【专利技术属性】
技术研发人员:徐行李思远肖金辉沈复民申恒涛
申请(专利权)人:成都考拉悠然科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1