一种基于制造技术

技术编号:39404245 阅读:12 留言:0更新日期:2023-11-19 15:56
本发明专利技术针对现有对抗方法在黑盒场景下攻击成功率不高

【技术实现步骤摘要】
一种基于GAN的黑盒可迁移性对抗攻击方法


[0001]本专利技术涉及深度学习的人工智能安全领域,具体地,涉及一种基于
GAN
的黑盒可迁移性对抗攻击方法


技术介绍

[0002]神经网络的发展提高了人们生活效率,但由于其本身的不可解释性和脆弱性,导致网络的安全性受到人们的质疑


2014
年,
Goodfellow

Szegedy
等人发现深度神经网络的模型容易受到对抗样本的干扰,这些示例的生成方式是通过在干净的输入样本上添加人眼难以察觉的扰动

对抗样本的出现引起了人们对敏感性应用的安全担忧,在发现能够误导深度神经网络的对抗性示例出现后,各种对抗攻击方式陆续被提出

对抗攻击根据目标模型暴露给攻击者的信息量可分为白盒攻击和黑盒攻击,白盒算法比黑盒算法更容易和更有效地生成对抗扰动,因为它们可以利用目标模型的全部知识,包括模型权重

架构和梯度

例如,快速梯度符号方法
FGSM
通过在梯度上添加增量来使模型对样本做出错误分类;投影梯度下降攻击法
PGD
是在梯度迭代过程中进行多次迭代,控制扰动在规定的范围;基于优化的迭代攻击
C&W
方法主要思想是在迭代训练过程中将网络参数固定下来,把扰动当做唯一需要训练的参数,通过反向传播过程调整对抗扰动

但由于隐私和安全性,这种攻击场景在实际部署中通常不可用

在更实际的对抗场景中,攻击者可以采用基于查询的黑盒攻击,虽然在黑盒攻击者模型信息是隐藏的,但攻击者可以查询模型并观察相应的标签预测,但该方法通常耗时,且在大多数黑盒攻击场景下成功率都不高,因此目前大部分黑盒攻击方法都是基于对抗样本的可迁移性,利用对抗样本的可迁移性可以训练替代模型来欺骗未知的目标模型

[0003]还有一些研究人员利用生成模型,例如基于
GAN
来产生对抗性扰动,或直接生成对抗样本,与基于梯度和优化的方法相比,生成模型大大减少了对抗样本的生成时间

然而,现有方法具有两个明显的缺点
:1)
生成能力有限,即它们一次只能执行一个特定的目标攻击,不同的目标需要重新训练
。2)
它们很难扩展到现实世界的数据集

大多数基于
GAN
的对抗攻击方法仅在
MNIST

CIFAR

10
数据集上进行了测试评估并取得了不错的效果,但在复杂的现实任务中是不可行的

[0004]基于以上现有问题,提出了一种基于
GAN
的黑盒可迁移性对抗攻击方法,构建
GAN
网络生成对抗样本实现对抗攻击,并设计黑盒对抗攻击场景增加攻击对象的迁移性和通用性,提高对抗样本生成效率和图像质量

此外,不仅在
MNIST

CIFAR

10
数据集上获得了高攻击性能,还在更现实的肺部
X

Ray
图像上进行了实验,证明了所提出的攻击方法的有效性和可行性


技术实现思路

[0005]本专利技术的目的是提供一种基于
GAN
的黑盒可迁移性对抗攻击方法,首先构建神经网络目标模型,设计黑盒攻击场景实现可迁移性对抗攻击,其次利用生成式对抗网络生成
对抗样本,并且在生成器中设计基于扩张卷积的残差块和金字塔分割注意力机制增强特征表达能力,最后利用对抗样本对目标模型进行对抗攻击来识别和暴露模型中存在的缺陷和安全问题,为指导模型进行有针对性的防御和增强模型的对抗鲁棒性提供了参考方案

[0006]本专利技术的一种基于
GAN
的黑盒可迁移性对抗攻击方法,具体包括如下步骤:
[0007](1)
构建神经网络目标模型,具体实施过程为:
[0008]使用
CheXNet
模型搭建目标模型
T

CheXNet
模型以
DensNet121
网络为基本骨架,利用3×3小卷积替换7×7大卷积减少模型参数量,并通过密集连接充分提取图像中的边缘纹理特征信息;
[0009]利用来自在
ImageNet
数据集上预训练模型的权重初始化网络的权重,使用具有标准参数的
SGD+Momentum
优化算法端到端训练网络;
[0010]在模型末尾使用卷积代替全连接层,并利用
Sigmoid
函数完成模型最终的分类输出,实现对图像的多标签分类;
[0011]不断对参数进行调优直到目标模型达到最佳准确率后保存

[0012](2)
设计黑盒攻击场景,构建代理模型
S
实现可迁移性对抗攻击,具体包括如下步骤:
[0013]合成数据:将一批随机噪声
Z
映射到所需的数据
X

VAE(Z)
上,生成模型
VAE
的目标置为合成分布接近于目标训练所需的数据,将合成的训练数据
X
输入到代理模型
S
中,最小化损失函数来更新生成模型,生成损失表示为:
[0014][0015]式中:
d
是交叉熵损失函数,
S(X)
是向代理模型输入生成模型合成的数据,是随机平滑标签,
α
是调整正则化值的超参数,
L
H
是信息熵损失;
[0016]模型蒸馏:为了能够显著提高黑盒攻击方式下的成功率,在对代理模型和目标模型进行蒸馏时,鼓励代理模型
S
和目标模型
T
具有高度一致的决策边界来促进代理模型的训练,因此在蒸馏过程中需要对两种类型数据多加关注,所以最终损失函数由三部分组成,代理模型的损失函数定义为:
[0017][0018]式中:
L
dis
表示目标模型和代理模型之间的蒸馏损失,
L
bd
代表代理模型
S
和目标模型
T
之间存在决策分歧数据时产生的边界支持损失,
L
adv
代表数据容易从代理模型
S
转移到目标模型
T
时产生的对抗样本支持损失,
β1和
β2用来控制两个损失函数的占比;
[0019]最终对经过蒸馏提炼的网络进行对抗攻击

[0020](3)
使用
GAN
网络生成对抗样本,实现高黑盒攻击成功率和目标可迁移性攻击,具体包括如本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
GAN
的黑盒可迁移性对抗攻击方法,其特征包括:
(1)
使用
CheXNet
模型搭建目标模型
T

CheXNet
模型以
DensNet121
网络为基本骨架,在模型末尾使用卷积层代替全连接层,利用3×3小卷积替换7×7大卷积以减少模型参数量,使用来自在
ImageNet
数据集上预训练模型的权重初始化网络权重,使用
SGD+Momentum
算法进行迭代优化,增加
Sigmoid
非线性激活函数实现对模型的最终分类输出,训练模型直至达到收敛状态后保存目标模型
T

(2)
设计黑盒攻击场景,构建代理模型
S
实现可迁移性对抗攻击,首先进行数据合成,将生成模型
VAE
目标置为合成分布接近于目标训练数据
X
并输入到代理模型
S
中,最小化损失函数来更新生成模型,其中为了解决训练过程中模型容易崩溃的问题,引入最大化信息熵和随机标签平滑策略,生成损失表示为:式中:
d
是交叉熵损失函数,
S(X)
是向代理模型输入生成模型合成的数据,是随机平滑标签,
α
是调整正则化值的超参数,
L
H
是信息熵损失;其次是使用模型蒸馏的方法训练代理模型来有效地模仿目标模型,让代理模型
S
和目标模型
T
具有高度一致的决策边界来促进代理模型的训练,代理模型的损失函数定义为:式中:
L
dis
表示目标模型和代理模型之间的蒸馏损失,
L
bd
表示代理模型和目标模型之间存在决策分歧时产生的边界支持损失,
L
adv
表示在生成对抗样本时容易从代理模型
S
转移到目标模型
T
时产生的对抗样本支持损失,
β1和
β2用来控制两个损失函数的占比;
(3)
构建基于
GAN
的对抗攻击网络,实现目标可迁移性对抗攻击,获得高黑盒攻击成功率;
(4)
向生成器
G
中输入原始图像
x
和目标类别
t
,叠加高维噪声后生成对抗扰动
G(x,t)
,再将
X
pert

x+G(x,t)
和原始图像
x
送入判别器
D
中,判别为原始输入或对抗样本;
(5)
为了增强对抗样本的攻击能力和稳定整体的训练过程,引入攻击者
a
到判别器中进行对抗训练,并且在判别器
D
中设置辅助分类器
C
实现对样本的正确分类;
(6)
训练好代理模型
S
...

【专利技术属性】
技术研发人员:王小银王丹孙家泽王曙燕李文澳
申请(专利权)人:西安邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1