一种对抗样本生成方法及装置制造方法及图纸

技术编号:39844997 阅读:11 留言:0更新日期:2023-12-29 16:42
本发明专利技术公开了一种对抗样本生成方法及装置,属于人工智能安全及对抗样本生成技术领域

【技术实现步骤摘要】
一种对抗样本生成方法及装置


[0001]本专利技术属于人工智能安全及对抗样本生成
,更具体的涉及一种对抗样本生成方法及装置


技术介绍

[0002]近年来,日趋成熟的大数据技术应用积累了海量跨场景数据,开源学习框架持续发展和高性能
GPU(
英文为:
graphics processing unit
,中文为:图形处理器
)
算力日益提升促进了软硬件基础设施进步,深度学习模型和算法在机器学习任务取得突破性进展

在这些因素共同驱动下,人工智能技术获得普遍部署,并成功应用于图像分类

语音识别

自然语言处理等领域,加速了传统产业的智能化变革

然而,大量研究表明深度学习模型正遭受着严重的安全性威胁,致使人工智能技术良性发展生态也面临着极大程度地破坏

在图像分类任务中,对抗样本是最典型的安全性威胁,它主要是在输入图像中故意添加人类难以察觉的细微扰动,使得深度卷积神经网络模型发生误判并输出错误的预测结果

在诸如人脸识别

自动驾驶

智慧医疗等安全攸关的应用场景中,对抗样本极有可能诱发深度学习模型内生安全风险,错误识别合法的用户身份

高速道路障碍物和交通标识

高危病理医学影像等,从而引发严重的经济损失

甚至危及人员身体健康和生命安全

因此,深入研究对抗样本的生成方法,已发展成为人工智能安全研究的前沿热点,对于理解深度卷积神经网络模型预测的决策原理

揭示外源对抗攻击诱发模型内生脆弱性的作用机理

启发构建对抗防御机制

增强模型泛化性和鲁棒性具有重要的理论依据和技术支撑

[0003]已有的对抗样本生成方法,包括边界约束的
L

BFGS(
英文为:
limited

memory BFGS)、
快速梯度符号法
FGSM(
英文为:
Fast Gradient Sign Method)、
深度欺骗
DeepFool、CW(
英文为:
Carlini and Wagne)、
基本迭代法
BIM(
英文为:
Basic iteration method)、
动量迭代法等,一方面利用深度神经网络反向传播的梯度及决策边界距离构造出多种对抗扰动;另一方面根据模型知识的可利用程度设计白盒
/
黑盒对抗攻击,或模型误判结果为导向设计出有
/
无特定目标攻击

然而,这些方法总是在图像全部像素所张成的完备语义空间里掺杂对抗扰动合成对抗样本,属于典型的全域攻击策略,这很可能造成了大量的冗余扰动和非必要的像素篡改,既增加了计算开销,也与攻击者期望篡改最少像素点并实现最强对抗效力的意图相违背


技术实现思路

[0004]本专利技术实施例提供一种对抗样本生成方法及装置,解决现有的对抗样本生成方法为全域攻击策略,造成大量的冗余扰动和非必要的像素篡改,导致计算开销大以及难以实现最强对抗效力的问题

[0005]本专利技术实施例提供一种对抗样本生成方法,包括:
[0006]通过深度卷积神经网络得到目标图像的正确类别,基于广义类激活图法

显著图法和修正型后向传播法确定所述正确类别对应的第一敏感语义域

第二敏感语义域和第三
敏感语义域;
[0007]根据第一关键语义阈值确定所述第一敏感语义域的第一关键语义像素点集,根据第二关键语义阈值确定所述第二敏感语义域的第二关键语义像素点集,根据第三关键语义阈值确定所述第三敏感语义域的第三关键语义像素点集;
[0008]根据并集融合粗

细粒度的关键语义像素点确定所述第一关键语义像素点集

所述第二关键语义像素点集和所述第三关键语义像素点集对应的关键语义融合域;
[0009]通过二值化得到所述关键语义融合域的掩码矩阵,通过哈达玛积得到与所述掩码矩阵对应的所述目标图像的对抗扰动,根据所述对抗扰动和所述目标图像得到被污染的污染对抗样本,通过深度卷积神经网络确定所述污染对抗样本的识别类别;
[0010]根据所述污染对抗样本的识别类别

所述正确类别

指定的攻击类别之间的关系,得到对抗攻击优化模型,根据
Adam
梯度下降算法得到所述对抗攻击优化模型的最优对抗样本

[0011]优选地,所述根据所述污染对抗样本的识别类别

所述正确类别

指定的攻击类别之间的关系,得到对抗攻击优化模型,具体包括:
[0012]所述对抗攻击优化模型包括无目标的对抗攻击优化模型和有目标的对抗攻击优化模型;
[0013]若所述污染对抗样本的识别类别与所述正确类别不相同时,称为第一类对抗样本,确定得到无目标的对抗攻击,所述无目标的对抗攻击优化模型如下所示:
[0014][0015]若所述污染对抗样本的识别类别与所述指定的攻击类别相同时,称为第二类对抗样本,确定得到有目标的对抗攻击,所述有目标的对抗攻击优化模型如下所示:
[0016][0017]其中,
Δ
I1表示无目标对抗攻击所生成的第一类对抗扰动,表示第一类对抗样本的识别结果中所述正确类别所对应的置信值,表示第一类对抗样本的识别结果中任意类别对应的置信值,
λ1表示生成第一类对抗扰动所需要的权重参数,
||
Δ
I1||0表示
l0范数度量,
c
表示所述正确类别;
Δ
I2表示有目标对抗攻击所生成的第二类对抗扰动,表示第二类对抗样本的识别结果中任意类别对应的置信值,
t
表示所述指定的攻击类别,表示第二类对抗样本的识别结果中指定的攻击类别
t
对应的置信值,
λ2表示生成第二类对抗扰动所需要的权重参数,
||
Δ
I2||0表示
l0范数度量,
z
表示所述污染对抗样本的识别类别

[0018]优选地,通过二值化得到所述关键语义融合域的掩码矩阵,通过哈达玛积得到与所述掩码矩阵对应的所述目标图像的对抗扰动,具体包括:
[0019]所述掩码矩阵如下所示:
[0020][0021]所述目标图像的对抗扰动如下所示:
[0022]Δ
I∈I
M
[0023]‖
Δ
I‖


δ
[0024本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种对抗样本生成方法,其特征在于,包括:通过深度卷积神经网络得到目标图像的正确类别,基于广义类激活图法

显著图法和修正型后向传播法确定所述正确类别对应的第一敏感语义域

第二敏感语义域和第三敏感语义域;根据第一关键语义阈值确定所述第一敏感语义域的第一关键语义像素点集,根据第二关键语义阈值确定所述第二敏感语义域的第二关键语义像素点集,根据第三关键语义阈值确定所述第三敏感语义域的第三关键语义像素点集;根据并集融合粗

细粒度的关键语义像素点确定所述第一关键语义像素点集

所述第二关键语义像素点集和所述第三关键语义像素点集对应的关键语义融合域;通过二值化得到所述关键语义融合域的掩码矩阵,通过哈达玛积得到与所述掩码矩阵对应的所述目标图像的对抗扰动,根据所述对抗扰动和所述目标图像得到被污染的污染对抗样本,通过深度卷积神经网络确定所述污染对抗样本的识别类别;根据所述污染对抗样本的识别类别

所述正确类别

指定的攻击类别之间的关系,得到对抗攻击优化模型,根据
Adam
梯度下降算法得到所述对抗攻击优化模型的最优对抗样本
。2.
如权利要求1所述的方法,其特征在于,所述根据所述污染对抗样本的识别类别

所述正确类别

指定的攻击类别之间的关系,得到对抗攻击优化模型,具体包括:所述对抗攻击优化模型包括无目标的对抗攻击优化模型和有目标的对抗攻击优化模型;若所述污染对抗样本的识别类别与所述正确类别不相同时,称为第一类对抗样本,确定得到无目标的对抗攻击,所述无目标的对抗攻击优化模型如下所示:若所述污染对抗样本的识别类别与所述指定的攻击类别相同时,称为第二类对抗样本,确定得到有目标的对抗攻击,所述有目标的对抗攻击优化模型如下所示:其中,
Δ
I1表示无目标对抗攻击所生成的第一类对抗扰动,表示第一类对抗样本的识别结果中所述正确类别所对应的置信值,表示第一类对抗样本的识别结果中任意类别对应的置信值,
λ1表示生成第一类对抗扰动所需要的权重参数,
||
Δ
I1||0表示
l0范数度量,
c
表示所述正确类别;
Δ
I2表示有目标对抗攻击所生成的第二类对抗扰动,表示第二类对抗样本的识别结果中任意类别对应的置信值,
t
表示所述指定的攻击类别,表示第二类对抗样本的识别结果中指定的攻击类别
t
对应的置信值,
λ2表示生成第二类对抗扰动所需要的权重参数,
||
Δ
I2||0表示
l0范数度量,
z
表示所述污染对抗样本的识别类别
。3.
如权利要求1所述的方法,其特征在于,通过二值化得到所述关键语义融合域的掩码矩阵,通过哈达玛积得到与所述掩码矩阵对应的所述目标图像的对抗扰动,具体包括:所述掩码矩阵如下所示:
所述目标图像的对抗扰动如下所示:
Δ
I∈I
M

Δ
I‖


δ
其中,
M
c
表示掩码矩阵,
L
C
表示关键语义融合域,
Δ
I
表示所述目标图像的对抗扰动,
I
M
表示所述目标图像可用于恶意篡改的像素区域,
δ
表示所述对抗扰动的最大可篡改阈值,
I
表示目标图像,表示哈达玛积
。4.
如权利要求1所述的方法,其特征在于,所述基于广义类激活图法

显著图法和修正型后向传播法确定所述正确类别对应的第一敏感语义域

第二敏感语义域和第三敏感语义域,具体包括:通过下列公式确定任意一个特征图对于正确类别置信度的梯度值的重要程度

任意一个特征图对于正确类别置信度的权重和第一敏感语义域:个特征图对于正确类别置信度的权重和第一敏感语义域:个特征图对于正确类别置信度的权重和第一敏感语义域:通过下列公式确定第二敏感语义域:通过下列公式确定第
l
层修正型梯度和第三敏感语义域:
G
l

max(A
l
,0)max(G
l+1
,0)
其中,
A
k
表示第
k
个通道的特征图,
Y
c
表示正确类别
c
置信度,表示任意一个特征图对于正确类别
c
置信度的梯度值的重要程度,表示任意一个特征图对于
Y
c
的权重,
I
G
表示第一敏感语义域,
L
S
表示第二敏感语义域,
I(i,j)
表示所述目标图像包括的每个像素点,
G
l
表示第
l
个卷积层的修正型梯度,
L
B
表示第三敏感语义域,
A
l
表示第
l
个卷积层的特征图,
A1表示第1个卷积层的特征图
。5.
如权利要求1所述的方法,其特征在于,所述关键语义融合域如下所示:
L
C

{(i,j)∈(P
G
∪P
S
∪P
B
)}
其中,
P
G
表示所述第一关键语义像素点集,<...

【专利技术属性】
技术研发人员:彭弘毅王震高超仲于江
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1