一种基于生成对抗网络的对抗攻击防御训练方法技术

技术编号:24577682 阅读:60 留言:0更新日期:2020-06-21 00:37
本发明专利技术提出一种基于生成式对抗网络的对抗攻击防御训练方法,包括:S1.将真实样本图像数据x

A training method of anti attack defense based on the generation of anti network

【技术实现步骤摘要】
一种基于生成对抗网络的对抗攻击防御训练方法
本专利技术涉及深度学习对抗攻击的安全防御
,更具体地,涉及一种基于生成对抗网络的对抗攻击防御训练方法。
技术介绍
当前,深度学习正占据飞速发展的机器学习和人工智能领域的核心地位,在各种视觉和语音识别任务中都取得了出色的表现。然而,由于模型具有非直观的特征和不可解释性,现代视觉深度神经网络(DNN)容易受到来自根据一些特定的盲点设计出来的对抗样本的攻击。此类具有攻击性的对抗样本,与噪声样本相比,被精心设计,因而不易察觉,不仅能够导致目标网络预测分类错误,而且具备可转移性,能够直接执行黑盒攻击。换句话说,攻击者能够找到一个类似于目标网络的替代网络,并藉此训练出攻击样本,从而将其应用于目标网络。因此,设计一种能够有效抵御来自黑盒攻击对抗样本的防御训练方法是非常重要和紧迫的。生成式对抗网络理论基于博弈论场景,其中生成器网络通过与对手竞争来学习变换由某些简单的输入分布(通常是标准多变量正态分布或者均匀分布)到图像空间的分布;作为对手,判别器则试图区分从训练数据抽取的样本和从生成器中生成的样本。一个具有良好决策边界的分类器模型,不仅能够实现对真实样本的正确分类,还能够在面对攻击样本的时候,忽略干扰特征,关注样本的关键特征,继而将攻击样本分类正确。已有的方案中,针对对抗攻击的防御方式主要可以分为以下几类:(1)基于统计检验的检测:这种方法比较直接,效果也比较差,并且因为是基于大量对抗样本的统计结论,因此需要大量对抗样本挖掘其统计规律,在检测的时候也不适于检测单个对抗样本。(2)在模型训练过程中修改训练过程或者修改数据:将对抗样本和原始样本作为训练集进行监督训练;对输入数据进行压缩;对输入数据进行引入随机重缩放、随机padding、训练过程中的图像增强;(3)修改神经网络模型,比如增加网络层、添加子网络、修改损失函数和激活函数等;(4)当分类未见过的样本时,用外部模型作为附加网络,即利用一个单独训练的网络加在原来的模型上,从而达到不需要调整系数而且免疫对抗样本的方法,从而完成对通用扰动的防御。综上所述,针对不同类型的对抗样本,都需要一些额外的工作来确保分类器对于新增攻击手段的鲁棒性。从效果和成本方面考虑,目前修改数据和使用附加网络是被较多使用的两种方法,这是由于这两种方法并不会直接修改目标网络模型,可直接用于多个功能相近的网络模型,在工程上极大地节约了资源,但修改数据和使用附加网络也一定程度上也增加了工作量,且训练样本具有局限性,导致防御训练的网络边界和真实决策边界存在差异。
技术实现思路
为克服传统用于对抗攻击防御训练的方法如使用附加网络,具有加重工作量的弊端,且训练样本具有局限性,导致防御训练的网络边界和真实决策边界存在差异,本专利技术提出了一种基于生成对抗网络的对抗攻击防御训练方法,不需要额外的附加网络,提高网络对抗攻击样本的鲁棒性。本专利技术旨在至少在一定程度上解决上述技术问题。为了达到上述技术效果,本专利技术的技术方案如下:一种基于生成式对抗网络的对抗攻击防御训练方法,包括以下步骤:S1.将真实样本图像数据xreal的类别定义为creal,并对真实样本图像数据进行z-score标准化处理;S2.建立防御训练框架,防御训练框架包括生成器、攻击算法库、判别器及目标网络;S3.基于定义后的真实样本图像数据,生成随机噪声Z及生成随机条件向量Cfake;S4.将随机噪声Z及随机条件向量Cfake输入至防御训练框架中的生成器;S5.将z-score标准化处理后的真实样本图像数据及其类别creal输入至攻击算法库;将生成器的输出和攻击算法库的输出输入至防御训练框架中的判别器;S6.对防御训练框架进行防御训练,保存训练后的防御训练框架参数;S7.训练完成,舍弃生成器和攻击算法库,保留判别器。优选地,步骤S1所述真实样本图像数据xreal服从离散正态分布Preal,真实样本图像数据的种类总数为nclasses,真实样本图像数据xreal进行z-score标准化处理的公式为:其中,表示z-score标准化处理后的真实样本图像的数据,xreal表示z-score标准化处理前的真实样本图像的数据,mean表示真实样本图像数据的均值,std表示真实样本图像数据的方差。优选地,步骤S2所述的防御训练框架包括生成器G、用于生成攻击样本的攻击算法库Ωattack、判别器D及目标网络F;生成器G为基于神经网络VGG、ResNet、GoogleNet、AlexNet中的一种基本卷积单元设计而成的上采样卷积神经网络;所述攻击算法库Ωattack里的算法包括梯度攻击算法,包括但不限于FastGradientSignMethod、iterativeleast-likelyclassmethod、BasicIterativeMethods;判别器D为基于神经网络VGG、ResNet、GoogleNet、AlexNet中的一种基本卷积单元设计而成的下采样卷积神经网络;目标网络F由卷积神经网络组成,包括VGG、ResNet、GoogleNet、AlexNet中的一种或任意组合。优选地,步骤S3所述的随机噪声Z从均值mean为0,标准差为1的离散正态分布Pz中随机获取;随机条件向量Cfake从均匀分布为Pc=[0,nclasses)之间的整数中随机获取。优选地,步骤S6所述的对防御训练框架进行防御训练的过程为:S601.将随机噪声Z及随机条件向量Cfake作为训练框架中生成器G的输入,利用生成器G生成假样本图像xfake;S602.将z-score标准化处理后的真实样本图像数据及其类别creal输入至攻击算法库Ωattack;S603.以目标网络F作为攻击目标,随机选择攻击算法库Ωattack中的攻击算法对真实样本图像数据进行攻击,输出攻击样本及其类别S604.假样本图像xfake与攻击样本共同输入判别器D,得出判别器D对假样本图像xfake的真假判定损失Ltf(G)、分类损失Lcls(G)和真假判定损失以及对攻击样本的真假样本判定损失和分类损失Lcls(D)。在此,目标网络F是通过真实样本数据进行训练之后所得到的卷积神经网络,对防御训练框架进行防御训练的过程中,通过攻击算法库,获得能够让目标网络F无法正常工作的假样本数据,假样本数据是在真实样本数据的基础上进行修改的,执行修改动作的即是攻击算法库里边的某一个攻击算法。优选地,对训练防御框架的生成器G和判别器D共进行Epoch轮的训练,生成器G和判别器D为交替训练:1)固定判别器D的参数θD不变,训练生成器G,步骤如下:步骤一、从均值mean为0,标准差为1的离散正态分布Pz中随机获取M个样本数据组成随机噪声Z;从均匀分布为Pc=[0,nclasses)之间的整数中随机获取M个样本数据组成随机条件向量cfake,随机噪声Z及随机条件向量cfake传输至生成器G,生成本文档来自技高网
...

【技术保护点】
1.一种基于生成式对抗网络的对抗攻击防御训练方法,其特征在于,包括以下步骤:/nS1.将真实样本图像数据x

【技术特征摘要】
1.一种基于生成式对抗网络的对抗攻击防御训练方法,其特征在于,包括以下步骤:
S1.将真实样本图像数据xreal的类别定义为creal,并对真实样本图像数据进行z-score标准化处理;
S2.建立防御训练框架,防御训练框架包括生成器、攻击算法库、判别器及目标网络;
S3.基于定义后的真实样本图像数据,生成随机噪声Z及生成随机条件向量Cfake;
S4.将随机噪声Z及随机条件向量Cfake输入至防御训练框架中的生成器;
S5.将z-score标准化处理后的真实样本图像数据及其类别creal输入至攻击算法库,将生成器的输出和攻击算法库的输出输入至防御训练框架中的判别器;
S6.对防御训练框架进行防御训练,保存训练后的防御训练框架参数;
S7.训练完成,舍弃生成器和攻击算法库,保留判别器。


2.根据权利要求1所述的基于生成式对抗网络的对抗攻击防御训练方法,其特征在于,步骤S1所述真实样本图像数据xreal服从离散正态分布Preal,真实样本图像数据的种类总数为nclasses,真实样本图像数据xreal进行z-score标准化处理的公式为:



其中,表示z-score标准化处理后的真实样本图像的数据,xreal表示z-score标准化处理前的真实样本图像的数据,mean表示真实样本图像数据的均值,std表示真实样本图像数据的方差。


3.根据权利要求2所述的基于生成式对抗网络的对抗攻击防御训练方法,其特征在于,步骤S2所述的防御训练框架包括生成器G、用于生成攻击样本的攻击算法库Ωattack、判别器D及目标网络F;生成器G为基于神经网络VGG、ResNet、GoogleNet、AlexNet中的一种基本卷积单元设计而成的上采样卷积神经网络;所述攻击算法库Ωattack里的算法包括梯度攻击算法,包括FastGradientSignMethod、iterativeleast-likelyclassmethod、BasicIterativeMethods中的一种或任意组合;判别器D为基于神经网络VGG、ResNet、GoogleNet、AlexNet中的一种基本卷积单元设计而成的下采样卷积神经网络;目标网络F由卷积神经网络组成,包括VGG、ResNet、GoogleNet、AlexNet中的一种或任意组合。


4.根据权利要求3所述的基于生成式对抗网络的对抗攻击防御训练方法,其特征在于,步骤S3所述的随机噪声Z从均值mean为0,标准差为1的离散正态分布Pz中随机获取;随机条件向量Cfake从均匀分布Pc=[0,nclasses)之间的整数中随机获取。


5.根据权利要求4所述的基于生成式对抗网络的对抗攻击防御训练方法,其特征在于,步骤S6所述的对防御训练框架进行防御训练的过程为:
S601.将随机噪声Z及随机条件向量Cfake作为训练框架中生成器G的输入,利用生成器G生成假样本图像xfake;
S602.将z-score标准化处理后的真实样本图像数据及其类别creal输入至攻击算法库Ωattack;
S603.以目标网络F作为攻击目标,随机选择攻击算法库Ωattack中的攻击算法对真实样本图像数据进行攻击,输出攻击样本及其类别
S604.假样本图像xfake与攻击样本共同输入判别器D,得出判别器D对假样本图像xfake的真假判定损失Ltf(G)、分类损失Lcls(G)和真假判定损失以及对攻击样本的真假样本判定损失和分类损失Lcls(D)。


6.根据权利要求5所述的基于生成式对抗网络的对抗攻击防御训练方法,其特征在于,对训练防御框架的生成器G和判别器D共进行Epoch轮的训练,生成器G和判别器D为交替训练:
1)固定判别器D的参数θD不变,训练生成器G,步骤如下:
步骤一、从均值mean为0,标准差为1的离散正态分布Pz中随机获取M个样本数据组成随机噪声Z;从均匀分布为Pc=[0,nclasses)之间的整数中随机获取M个样本数据组成随机条件向量cf...

【专利技术属性】
技术研发人员:孔锐黄钢曹后杰
申请(专利权)人:星汉智能科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1