一种对抗样本生成方法及装置制造方法及图纸

技术编号：39844997 阅读：11 留言：0更新日期：2023-12-29 16:42

本发明专利技术公开了一种对抗样本生成方法及装置，属于人工智能安全及对抗样本生成技术领域

全部详细技术资料下载

【技术实现步骤摘要】
一种对抗样本生成方法及装置

[0001]本专利技术属于人工智能安全及对抗样本生成
，更具体的涉及一种对抗样本生成方法及装置
。

技术介绍

[0002]近年来，日趋成熟的大数据技术应用积累了海量跨场景数据，开源学习框架持续发展和高性能
GPU(
英文为：
graphics processing unit
，中文为：图形处理器
)
算力日益提升促进了软硬件基础设施进步，深度学习模型和算法在机器学习任务取得突破性进展
。
在这些因素共同驱动下，人工智能技术获得普遍部署，并成功应用于图像分类
、
语音识别
、
自然语言处理等领域，加速了传统产业的智能化变革
。
然而，大量研究表明深度学习模型正遭受着严重的安全性威胁，致使人工智能技术良性发展生态也面临着极大程度地破坏
。
在图像分类任务中，对抗样本是最典型的安全性威胁，它主要是在输入图像中故意添加人类难以察觉的细微扰动，使得深度卷积神经网络模型发生误判并输出错误的预测结果
。
在诸如人脸识别
、
自动驾驶
、
智慧医疗等安全攸关的应用场景中，对抗样本极有可能诱发深度学习模型内生安全风险，错误识别合法的用户身份
、
高速道路障碍物和交通标识
、
高危病理医学影像等，从而引发严重的经济损失
、
甚至危及人员身体健康和生命安全
。
...

【技术保护点】

【技术特征摘要】
1.
一种对抗样本生成方法，其特征在于，包括：通过深度卷积神经网络得到目标图像的正确类别，基于广义类激活图法
、
显著图法和修正型后向传播法确定所述正确类别对应的第一敏感语义域
、
第二敏感语义域和第三敏感语义域；根据第一关键语义阈值确定所述第一敏感语义域的第一关键语义像素点集，根据第二关键语义阈值确定所述第二敏感语义域的第二关键语义像素点集，根据第三关键语义阈值确定所述第三敏感语义域的第三关键语义像素点集；根据并集融合粗
‑
细粒度的关键语义像素点确定所述第一关键语义像素点集
、
所述第二关键语义像素点集和所述第三关键语义像素点集对应的关键语义融合域；通过二值化得到所述关键语义融合域的掩码矩阵，通过哈达玛积得到与所述掩码矩阵对应的所述目标图像的对抗扰动，根据所述对抗扰动和所述目标图像得到被污染的污染对抗样本，通过深度卷积神经网络确定所述污染对抗样本的识别类别；根据所述污染对抗样本的识别类别
、
所述正确类别
、
指定的攻击类别之间的关系，得到对抗攻击优化模型，根据
Adam
梯度下降算法得到所述对抗攻击优化模型的最优对抗样本
。2.
如权利要求1所述的方法，其特征在于，所述根据所述污染对抗样本的识别类别
、
所述正确类别
、
指定的攻击类别之间的关系，得到对抗攻击优化模型，具体包括：所述对抗攻击优化模型包括无目标的对抗攻击优化模型和有目标的对抗攻击优化模型；若所述污染对抗样本的识别类别与所述正确类别不相同时，称为第一类对抗样本，确定得到无目标的对抗攻击，所述无目标的对抗攻击优化模型如下所示：若所述污染对抗样本的识别类别与所述指定的攻击类别相同时，称为第二类对抗样本，确定得到有目标的对抗攻击，所述有目标的对抗攻击优化模型如下所示：其中，
Δ
I1表示无目标对抗攻击所生成的第一类对抗扰动，表示第一类对抗样本的识别结果中所述正确类别所对应的置信值，表示第一类对抗样本的识别结果中任意类别对应的置信值，
λ1表示生成第一类对抗扰动所需要的权重参数，
||
Δ
I1||0表示
l0范数度量，
c
表示所述正确类别；
Δ
I2表示有目标对抗攻击所生成的第二类对抗扰动，表示第二类对抗样本的识别结果中任意类别对应的置信值，
t
表示所述指定的攻击类别，表示第二类对抗样本的识别结果中指定的攻击类别
t
对应的置信值，
λ2表示生成第二类对抗扰动所需要的权重参数，
||
Δ
I2||0表示
l0范数度量，
z
表示所述污染对抗样本的识别类别
。3.
如权利要求1所述的方法，其特征在于，通过二值化得到所述关键语义融合域的掩码矩阵，通过哈达玛积得到与所述掩码矩阵对应的所述目标图像的对抗扰动，具体包括：所述掩码矩阵如下所示：
所述目标图像的对抗扰动如下所示：
Δ
I∈I
M
‖
Δ
I‖
∞
≤
δ
其中，
M
c
表示掩码矩阵，
L
C
表示关键语义融合域，
Δ
I
表示所述目标图像的对抗扰动，
I
M
表示所述目标图像可用于恶意篡改的像素区域，
δ
表示所述对抗扰动的最大可篡改阈值，
I
表示目标图像，表示哈达玛积
。4.
如权利要求1所述的方法，其特征在于，所述基于广义类激活图法
、
显著图法和修正型后向传播法确定所述正确类别对应的第一敏感语义域
、
第二敏感语义域和第三敏感语义域，具体包括：通过下列公式确定任意一个特征图对于正确类别置信度的梯度值的重要程度
、
任意一个特征图对于正确类别置信度的权重和第一敏感语义域：个特征图对于正确类别置信度的权重和第一敏感语义域：个特征图对于正确类别置信度的权重和第一敏感语义域：通过下列公式确定第二敏感语义域：通过下列公式确定第
l
层修正型梯度和第三敏感语义域：
G
l
＝
max(A
l
,0)max(G
l+1
,0)
其中，
A
k
表示第
k
个通道的特征图，
Y
c
表示正确类别
c
置信度，表示任意一个特征图对于正确类别
c
置信度的梯度值的重要程度，表示任意一个特征图对于
Y
c
的权重，
I
G
表示第一敏感语义域，
L
S
表示第二敏感语义域，
I(i,j)
表示所述目标图像包括的每个像素点，
G
l
表示第
l
个卷积层的修正型梯度，
L
B
表示第三敏感语义域，
A
l
表示第
l
个卷积层的特征图，
A1表示第1个卷积层的特征图
。5.
如权利要求1所述的方法，其特征在于，所述关键语义融合域如下所示：
L
C
＝
{(i,j)∈(P
G
∪P
S
∪P
B
)}
其中，
P
G
表示所述第一关键语义像素点集，<...

【专利技术属性】
技术研发人员：彭弘毅，王震，高超，仲于江，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人