【技术实现步骤摘要】
基于神经网络模型的自适应黑盒对抗攻击方法
本专利技术涉及对抗攻击领域,尤其涉及一种基于神经网络模型的自适应黑盒对抗攻击方法。
技术介绍
近年来,深度学习的快速发展使得深度神经网络模型在多种视觉识别任务上都取得了显著的成果,比如图像分类、目标检测和语义分割等。但在对抗攻击领域中的研究表明,通过向图片中的部分像素添加微小的扰动,就能让强大的神经网络模型产生错误的预测结果,这样的图片被称作对抗样本。对抗样本的存在严重限制了深度学习技术的应用。根据攻击者对目标模型的了解程度,现有的对抗攻击方法可分为如下两类:1)白盒攻击方法:白盒攻击方法假设攻击者能够获取到目标模型的全部信息,包括模型结构、模型参数和训练数据等。在白盒攻击情景下,攻击者可在目标模型上执行反向传播并利用获得的梯度信息生成对抗样本。较有代表性的白盒攻击方法包括FGSM、JSMA和C&W等。2)黑盒攻击方法:黑盒攻击方法假设攻击者不能获取到目标模型的内部信息,仅能向目标模型发起有限次查询并得到相应的查询结果。由于黑盒攻击情景下攻击者无法获取模型梯度信息,因此黑盒攻击方法一般借助对抗样本的迁移性、梯度估计或无梯度优化算法实现。由于自动驾驶系统需要以多种视觉识别任务为支撑,而这些视觉识别任务通常采用深度学习技术实现,因此自动驾驶系统也容易受到对抗样本的攻击。自动驾驶系统作为一种安全关键应用,其对健壮性和可靠性的要求十分严格,这意味着研究针对自动驾驶系统的对抗攻击方法有着极为重要的应用价值。现有的针对自动驾驶系统的攻击方法主要关注白盒攻击 ...
【技术保护点】
1.基于神经网络模型的自适应黑盒对抗攻击方法,其特征在于,包括如下步骤:/n步骤1、选取适应性分布并初始化其参数;/n步骤2、在适应性分布中采样,并根据采样结果构造对抗样本;/n步骤3、将所述对抗样本输入神经网络模型中,获取与该对抗样本对应的预测类别,并判断是否攻击成功,若攻击失败,则进入步骤4,若攻击成功,则判断对抗样本对神经网络模型进行攻击的次数是否在规定次数范围内,若在,则攻击有效,否则,攻击无效;/n对于无目标攻击,攻击成功是指对抗样本的预测类别与原图片所属类别不同,对于有目标攻击,攻击成功是指对抗样本的预测类别为预先指定的目标类别;/n步骤4、计算所述对抗样本的对抗损失,并计算适应性分布下对抗损失的数学期望对适应性分布参数的梯度,并利用其更新适应性分布的参数,然后返回步骤2。/n
【技术特征摘要】
1.基于神经网络模型的自适应黑盒对抗攻击方法,其特征在于,包括如下步骤:
步骤1、选取适应性分布并初始化其参数;
步骤2、在适应性分布中采样,并根据采样结果构造对抗样本;
步骤3、将所述对抗样本输入神经网络模型中,获取与该对抗样本对应的预测类别,并判断是否攻击成功,若攻击失败,则进入步骤4,若攻击成功,则判断对抗样本对神经网络模型进行攻击的次数是否在规定次数范围内,若在,则攻击有效,否则,攻击无效;
对于无目标攻击,攻击成功是指对抗样本的预测类别与原图片所属类别不同,对于有目标攻击,攻击成功是指对抗样本的预测类别为预先指定的目标类别;
步骤4、计算所述对抗样本的对抗损失,并计算适应性分布下对抗损失的数学期望对适应性分布参数的梯度,并利用其更新适应性分布的参数,然后返回步骤2。
2.根据权利要求1所述的基于神经网络模型的自适应黑盒对抗攻击方法,其特征在于,步骤1具体包括如下步骤:
步骤101、选取一种带有可学习参数的二维连续型概率分布作为适应性分布;
步骤102、为适应性分布的参数设置合适的初始值,使采样结果能够处于合理的区间内。
3.根据权利要求2所述的基于神经网络模型的自适应黑盒对抗攻击方法,其特征在于,步骤101中,所述二维连续型概率分布包括二维独立正态分布和二维独立拉普拉斯分布;所述二维独立正态分布的概率密度函数为:
其中,x,σ,下标i表示相应向量的第i个分量,x表示输入变量,μ表示该分布的均值,且μ是可学习的,σ表示方差,且σ是固定的,μ设置的初始值为(0,0),σ设置的初始值为(0.5,0.5);
所述二维独立拉普拉斯分布的概率密度函数为:
其中,x,σ′,μ′表示该分布的均值,且μ′是可学习的,σ′表示方差,且σ′是固定的,μ′设置的初始值为(0,0),σ′设置的初始值为(0.6,0.6)。
4.根据权利要求1所述的基于神经网络模型的自适应黑盒对抗攻击方法,其特征在于,步骤2中,所述适应性分布能够为搜索空间中不同位置分配不同的采样概率,使采样结果更有可能取得较大的对抗损失;
步骤2具体包括如下步骤:
步骤201、建立二维直角坐标系,该坐标系中,以图片的左上角作为原点,以图片的上侧边所在直线向右作为横轴的正半轴,以图片的左侧边所在直线向下作为纵轴的正半轴;
步骤202、从适应性分布中采样得到图片上的某处位置,并将其转换为像素坐标(w,h),其中,w为像素的横坐标,h为像素的纵坐标,且w和h均为整数;
其中,所述采样结果为(-1,1)区间内的浮点数,记采样结果为l=(l1,l2),图片的宽度和高度分别为W和H,则采样结果通过如下公式转换为像素的位置(w,h):
其中,l1表示采样结果的横坐标,l2表示采样结果的纵坐标;
步骤203、在采样位置上构造新的扰动rnew以生成对抗样本
其中,所述新的扰动在上一轮迭代中扰动的基础上构造,构造新的扰动时确保其幅值等于可允许的最大扰动幅值∈。
5.根据权利要求4所述的基于神经网络模型的自适应黑盒对抗攻击方法,其特征在于,根据衡量扰动幅值的范数,提供L∞和L2两种构造方式:
采用L∞方式构造扰动时,采样一个边长为S且中心点位置为(w,h)的正方形区域A,并在每一个颜色通道c中分别随机选取{-∈,∈}中的一个填充所述区域A得到新的扰动rnew,对于RGB图片,c可取1,2,3,rnew的其余区域均与上一轮迭代中的扰动rold保...
【专利技术属性】
技术研发人员:徐行,李思远,肖金辉,沈复民,申恒涛,
申请(专利权)人:成都考拉悠然科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。