【技术实现步骤摘要】
深度学习模型对抗攻击敏感频带检测方法及相关装置
[0001]本专利技术属于机器学习领域,涉及一种深度学习模型对抗攻击敏感频带检测方法及相关装置。
技术介绍
[0002]以深度学习算法为代表的人工智能技术不断发展,推动图像分类、自然语言处理以及语音识别等多种任务的解决方案持续取得了较大突破。随着深度学习模型广泛应用于现实生活场景中,其鲁棒性逐渐成为被关注的重点,目前,有研究表明深度学习模型极易受到对抗样本的攻击,即通过向原始图像添加人眼不可察觉的对抗扰动,攻击者可以构造出视觉上与原始图像相似度极高,却可以误导模型以较高的置信度输出错误预测结果的对抗样本。对抗样本的出现为深度学习模型的稳定运行带来了新的安全威胁,尤其阻碍了深度学习模型在自动驾驶以及金融风险分析等安全敏感领域的落地应用。目前尽管已经有一些深度学习模型对抗攻击结果的解释方法被提出,但所得到的结论之间仍然存在不一致甚至矛盾之处,导致了深度模型对抗攻击结果难以得到有效的解释。
[0003]针对以上问题,已经有一些研究工作初步尝试从频域的角度解释深度学习模型的对抗 ...
【技术保护点】
【技术特征摘要】
1.一种深度学习模型对抗攻击敏感频带检测方法,其特征在于,包括:获取深度学习模型及原始图像集,扰动原始图像集中的图像得到对抗图像;根据对抗图像对深度学习模型的对抗攻击结果,得到成功对抗扰动集并将成功对抗扰动集中的对抗扰动转换至频域,得到频域成功对抗扰动集;利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果并根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集;将若干高频成功对抗样本集与若干低频成功对抗样本集输入深度学习模型,统计深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率;根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,得到深度学习模型的对抗攻击敏感频带。2.根据权利要求1所述的深度学习模型对抗攻击敏感频带检测方法,其特征在于,所述利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果包括:获取掩码操作预设的若干掩码半径r;依次根据各掩码半径r,通过下式将频域成功对抗扰动集中的对抗扰动z
suc
的高频成分与低频成分分离:与低频成分分离:与低频成分分离:与低频成分分离:其中,i,j∈{0,1,
…
,d
‑
1};d为对抗扰动在水平或垂直方向的像素点数量;(c
m
,c
n
)为对抗扰动的形心;d(
·
)表示计算两个位置之间的欧几里得距离;为高频成分分离结果;为对成功对抗扰动z
suc
的以r为半径划分的内部进行掩码操作后的结果;z
suc
(i,j)为成功对抗扰动中(i,j)位置的扰动;为根据成功对抗扰动z
suc
中(i,j)的位置判断是否需要对该处的扰动进行掩码操作;为低频成分分离结果;为对成功对抗扰动z
suc
的以r为半径划分的外部进行掩码操作后的结果;为根据成功对抗扰动z
suc
中(i,j)的位置判断是否需要对该处的扰动进行掩码操作。3.根据权利要求2所述的深度学习模型对抗攻击敏感频带检测方法,其特征在于,所述掩码半径r=0,n,2n,
…
,mn,其中,n为预设常数。
4.根据权利要求2所述的深度学习模型对抗攻击敏感频带检测方法,其特征在于,所述根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集包括:将各掩码半径r对应的低频成分分离结果和高频成分分离结果转换至图像域,然后根据转换的各掩码半径r对应的低频成分分离结果和高频成分分离结果分别扰动原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集。5.根据权利要求2所述的深度学习模型对抗攻击敏感频带检测方法,其特征在于,所述根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,得到深度学习模型的对抗攻击敏感频带包括:根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,获取深度学习模型的当前分类准确率为分类准确率上限阈值时,对应的高频成功对抗样本集的掩码半径r
h1
和低频成功对抗样本集的掩码半径r
h2
,以及深度学习模型的当前分类准确率为分类准确率下限阈值时,对应的高频成功对抗样本集的掩码半径r
l1
和低频成功对抗样本集的掩码半径r
l2
;当|r
l1
‑
r
h1
|小于|r
l2
‑
r
h2
|时,深度学习模型的对抗攻击敏感频带(r
h
,r
l
)=(r
h1
,r
l1
);否则,深度学习模型的对抗攻击敏感频带(r
h
,r
l
)=(r
h2
,r
l2
)。6.根据权利要求5所述的深度学习模型对抗攻击敏感频带检测方法,其特征在于,还包括:根据对抗图像对深度学习模型的对抗攻击结果,得到非成功对抗扰动集并将非成功对抗扰动集中的对抗扰动转换至频域,得到频域非成功对抗扰动集;在频域成功对抗扰动集Z
suc
与频域非成功对抗扰动集Z
unsuc
上取平均值,得到频域成功对抗扰动集强度分布v
suc
与频域非成功对抗扰动集强度分布v
unsuc
;当深度学习模型的对抗攻击敏感频带(r
h
,r
l
)=(r
h1
,r
l1
)时,根据频域成功对抗扰动集强度分布v
suc
与频域非成功对抗扰动集强度分布v
unsuc
,通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布v
suc,k
和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布v
unsuc,k
::其中,k=1,2,
…
,r
h
‑
r
l
;为对频域成功对抗扰动集强度分布v
suc
的以t1为半径划分的内部进行掩码操作后的结果;为对频域非成功对抗扰动集强...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。