【技术实现步骤摘要】
一种基于GAN的黑盒可迁移性对抗攻击方法
[0001]本专利技术涉及深度学习的人工智能安全领域,具体地,涉及一种基于
GAN
的黑盒可迁移性对抗攻击方法
。
技术介绍
[0002]神经网络的发展提高了人们生活效率,但由于其本身的不可解释性和脆弱性,导致网络的安全性受到人们的质疑
。
在
2014
年,
Goodfellow
与
Szegedy
等人发现深度神经网络的模型容易受到对抗样本的干扰,这些示例的生成方式是通过在干净的输入样本上添加人眼难以察觉的扰动
。
对抗样本的出现引起了人们对敏感性应用的安全担忧,在发现能够误导深度神经网络的对抗性示例出现后,各种对抗攻击方式陆续被提出
。
对抗攻击根据目标模型暴露给攻击者的信息量可分为白盒攻击和黑盒攻击,白盒算法比黑盒算法更容易和更有效地生成对抗扰动,因为它们可以利用目标模型的全部知识,包括模型权重
、
架构和梯度
。
例如,快速梯度符号方法
FGSM
通过在梯度上添加增量来使模型对样本做出错误分类;投影梯度下降攻击法
PGD
是在梯度迭代过程中进行多次迭代,控制扰动在规定的范围;基于优化的迭代攻击
C&W
方法主要思想是在迭代训练过程中将网络参数固定下来,把扰动当做唯一需要训练的参数,通过反向传播过程调整对抗扰动
。
但由于隐私和安全性,这种 ...
【技术保护点】
【技术特征摘要】
1.
一种基于
GAN
的黑盒可迁移性对抗攻击方法,其特征包括:
(1)
使用
CheXNet
模型搭建目标模型
T
,
CheXNet
模型以
DensNet121
网络为基本骨架,在模型末尾使用卷积层代替全连接层,利用3×3小卷积替换7×7大卷积以减少模型参数量,使用来自在
ImageNet
数据集上预训练模型的权重初始化网络权重,使用
SGD+Momentum
算法进行迭代优化,增加
Sigmoid
非线性激活函数实现对模型的最终分类输出,训练模型直至达到收敛状态后保存目标模型
T
;
(2)
设计黑盒攻击场景,构建代理模型
S
实现可迁移性对抗攻击,首先进行数据合成,将生成模型
VAE
目标置为合成分布接近于目标训练数据
X
并输入到代理模型
S
中,最小化损失函数来更新生成模型,其中为了解决训练过程中模型容易崩溃的问题,引入最大化信息熵和随机标签平滑策略,生成损失表示为:式中:
d
是交叉熵损失函数,
S(X)
是向代理模型输入生成模型合成的数据,是随机平滑标签,
α
是调整正则化值的超参数,
L
H
是信息熵损失;其次是使用模型蒸馏的方法训练代理模型来有效地模仿目标模型,让代理模型
S
和目标模型
T
具有高度一致的决策边界来促进代理模型的训练,代理模型的损失函数定义为:式中:
L
dis
表示目标模型和代理模型之间的蒸馏损失,
L
bd
表示代理模型和目标模型之间存在决策分歧时产生的边界支持损失,
L
adv
表示在生成对抗样本时容易从代理模型
S
转移到目标模型
T
时产生的对抗样本支持损失,
β1和
β2用来控制两个损失函数的占比;
(3)
构建基于
GAN
的对抗攻击网络,实现目标可迁移性对抗攻击,获得高黑盒攻击成功率;
(4)
向生成器
G
中输入原始图像
x
和目标类别
t
,叠加高维噪声后生成对抗扰动
G(x,t)
,再将
X
pert
=
x+G(x,t)
和原始图像
x
送入判别器
D
中,判别为原始输入或对抗样本;
(5)
为了增强对抗样本的攻击能力和稳定整体的训练过程,引入攻击者
a
到判别器中进行对抗训练,并且在判别器
D
中设置辅助分类器
C
实现对样本的正确分类;
(6)
训练好代理模型
S
...
【专利技术属性】
技术研发人员:王小银,王丹,孙家泽,王曙燕,李文澳,
申请(专利权)人:西安邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。