【技术实现步骤摘要】
一种对抗样本防御方法及系统
[0001]本专利技术涉及人工智能领域,更具体地,涉及一种对抗样本防御方法及系统。
技术介绍
[0002]近年来,深度学习在计算机领域获得了前所未有的成功,在人脸识别和自动驾驶等领域的应用也取得了重大突破。深度学习模型容易受到人类无法察觉的对抗扰动的攻击,很容易导致深度学习的错误分类,这种攻击被称为对抗攻击。对抗攻击是通过生成对抗样本来实现的,即在数据集上添加复杂的扰动所形成的输入样本,以使深度学习模型将输入样本分类到错误标签。
[0003]现有一种对抗样本检测方法,其采用多个卷积层获取输入样本的非归一化显著图,然后提取预定义特征并且将所有非归一化显著图和预定义特征作为判别特征来训练检测器,以达到判别对抗样本的目的。
[0004]上述方法虽能判别对坑样本,但还存在以下缺陷:(1)该方法最后仅使用检测器来判别输入样本是否为对抗样本,没能对输入样本实现的正确分类,无法实现完全防御。(2)该方法提取了多个卷积层的特征图以获取非归一化显著图,增加了模型训练的复杂度。
技术实现思路
< ...
【技术保护点】
【技术特征摘要】
1.一种对抗样本防御方法,其特征在于,包括:获取输入样本;所述输入样本包括非对抗样本及其真实标签,以及对抗样本及其真实标签;对所述输入样本的进行特征提取,得到输入样本的高维特征,并根据所述高维特征,划分输入样本的真实显著特征和真实琐碎特征;利用所述高维特征、真实显著特征和真实琐碎特征训练一个基于生成对抗网络的显著特征提取器,并利用所述显著特征提取器对真实显著特征和真实琐碎特征进行重构,得到重构显著特征和重构琐碎特征;计算所述重构显著特征和所述重构琐碎特征之间的向量距离,根据所述向量距离,确定输入样本的样本类型;将所述输入样本和所述重构显著特征输入softmax分类器,得到输入样本正确的分类标签。2.根据权利要求1所述的对抗样本防御方法,其特征在于,在获取输入样本时,采用迭代梯度下降法生成所述非对抗样本对应的对抗样本。3.根据权利要求1所述的对抗样本防御方法,其特征在于,对所述输入样本的进行特征提取,得到输入样本的高维特征,具体包括:将输入样本输入深度神经网络模型进行特征提取,所述深度神经网络模型的全连接层输出输入样本的高维特征。4.根据权利要求1所述的对抗样本防御方法,其特征在于,所述显著特征提取器包括:用于利用高维特征生成重构显著特征的正生成器、用于利用高维特征生成重构琐碎特征的负生成器、用于对重构显著特征与真实显著特征进行判别的正判别器和用于对重构琐碎特征与真实琐碎特征进行判别的负判别器。5.根据权利要求4所述的对抗样本防御方法,其特征在于,利用所述高维特征、真实显著特征和真实琐碎特征训练一个基于生成对抗网络的显著特征提取器,并利用所述显著特征提取器对真实显著特征和真实琐碎特征进行重构,得到重构显著特征和重构琐碎特征,具体包括:将所述高维特征分别输入所述正生成器和所述负生成器,所述正生成器输出重构显著特征,所述负生成器输出重构琐碎特征;将所述重构显著特征和真实显著特征输入所述正判别器,当重构显著特征被判别为真时,正判别器的输出为1;当重构显著特征被判别为假时,正判别器的输出为0;根据正判别器的二进制输出结果,对正生成器和正判别器进行参数优化;将所述重构琐碎特征和真实琐碎特征输入所述负判别器,当重构琐碎特征被判别为真时,负判别器的输出为1;当重构琐碎特征被判别为假时,负判别器的输出为0;根据负判别器的二进制输出结果,对负生成器和负判别器进行参数优化。6.根据权利要求5所述的对抗样本防御方法,其特征在于,在对正生成器和正判别器进行参数优化时,最小化正生成器和正判别器的总体损失函数,以最小化重构显著特征和真实显著特征之间的差异;正生成器的总体损失函数loss
PG
和正判别器的总体损失函数的表达式如下所示:
loss
PG
=MSE(PG(X
F
),X
SF
)+CE(D
PG
(PG(X
F
)),1)其中,MSE(
·
,
·
)表示均方误差,PG(
·
)正生成器的输出,X
F
表示高维特征,PG(X
F
)为正生成器输出的重构显著特征,X
SF
表示真实显著特征,CE(
·
,
·
)表示二元分类的交叉熵。D
PG
(
·
)表示正判别器的输...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。