【技术实现步骤摘要】
一种基于相同语义特征的对抗样本生成方法与系统
[0001]本专利技术涉及人工智能安全的
,更具体地,涉及一种基于相同语义特征的对抗样本生成方法与系统。
技术介绍
[0002]随着深度学习的发展,神经网络在现实世界的识别任务中表现出了非常优秀的性能。然而,近年来研究表明,神经网络对于图像破坏和对抗实例具有一定的脆弱性,这阻碍了其在人工智能安全关键领域的应用,但推动了对神经网络鲁棒性的研究。为了产生对抗性的实例,最直观的方法是通过梯度下降来增加分类损失的代价,并应用lp距离来限制良性图像与扰动图像之间的视觉差异。然而,传统方法存在两个开放性问题的影响:一是在不同数据集之间泛化的固有局限性,在机器学习中,为了进行攻击,通常需要使用代理分类器来生成代表目标类别的学习权重向量,并将其用于误导模型。然而,这种攻击方法仅限于针对同一组类别的训练数据和攻击数据进行的情况,即白盒或代理分类器的攻击范例。在现实世界中,面临着开放集问题,即输入数据可能属于模型未曾见过的新颖类别,这种情况下,基于代理分类器的攻击无法奏效,因为代理分类器并没有包含来自“未知”类别的信息。二是对于人类视觉隐蔽性的差异问题,有学者已经证明,lp距离度量并不能准确地评估感知相似性。即仅仅依靠扰动强度无法清晰地反映出视觉上的不可感知差异。例如,著名的攻击方法C&W所产生的扰动在光滑背景上会变得更加容易被察觉。一系列的工作诉诸于设计感知相似性度量来限制对抗实例生成过程中的扰动,根据对象结构、边缘、颜色和学习感知图像块相似性的相似性,提出了其他感知 ...
【技术保护点】
【技术特征摘要】
1.一种基于相同语义特征的对抗样本生成方法,其特征在于,包括:S1:获取原始图像样本和待攻击的神经网络模型,并对原始图像样本对应生成扰动样本;S2:将原始图像样本和扰动样本输入待攻击的神经网络模型,计算扰动样本和相对应的原始图像样本的第一相似性分数、扰动样本和其他原始图像样本的第二相似性分数;S3:对第一相似性分数和第二相似性分数设置相应的权重因子,根据第一相似性分数及其权重因子、第二相似性分数及其权重因子对扰动样本进行调整,获得优化后的扰动样本;S4:利用一阶导数逼近算法计算所述优化后的扰动样本的上界,利用所述上界对所述优化后的扰动样本进行约束,获得初始对抗样本;S5:判断所述初始对抗样本是否满足预设要求;若满足,将所述初始对抗样本作为最终对抗样本;若不满足,将所述初始对抗样本作为新的扰动样本,重复步骤S2
‑
S5,直到满足预设要求,获得最终对抗样本。2.根据权利要求1所述的基于相同语义特征的对抗样本生成方法,其特征在于,将原始图像样本和扰动样本输入待攻击的神经网络模型,计算扰动样本和相对应的原始图像样本的第一相似性分数具体方法为:将原始图像样本和扰动样本按批次输入待攻击的神经网络模型,经待攻击的神经网络模型处理后,获得原始图像样本输出结果和扰动样本输出结果;根据扰动样本输出结果和相对应的原始图像样本输出结果,计算自反相似性分数,作为第一相似性分数:式中,S
i≠,i
表示第i个扰动样本与第i个原始图像样本的第一相似性分数,x
i
′
表示第i个扰动样本,x
i
表示第i个原始图像样本;f(*)表示待攻击的神经网络模型,f(x
i
′
)表示第i个扰动样本输出结果,f(x
i
)表示第i个原始图像样本输出结果;(*)
T
表示求取转置操作,‖*‖2表示求取L2范数操作。3.根据权利要求2所述的基于相同语义特征的对抗样本生成方法,其特征在于,将原始图像样本和扰动样本输入待攻击的神经网络模型,计算扰动样本和其他原始图像样本的第二相似性分数的具体方法为:对于每个其他原始图像样本输出结果,分别与扰动样本输出结果计算差值相似性分数:式中,S
i
′
,j
表示第i个扰动样本与第j个原始图像样本的第一相似性分数差值相似性分数,x
j
表示第j个原始图像样本,f(x
j
)表示第j个原始图像样本输出结果,i≠j;将所有差值相似性分数中分数值最小的差值相似性分数作为第二相似性分数min{
i
′
,j
|j≠i)}。4.根据权利要求3所述的基于相同语义特征的对抗样本生成方法,其特征在于,所述对
第一相似性分数和第二相似性分数设置相应的权重因子的具体方法为:预设调节值,根据调节值分别设置第一相似性分数和第二相似性分数相应的权重因子:α=[S
i
′
,i
‑
]
+
β=[1+
‑
min{(S
i
′
,j
|j≠i)}]
+
式中,α表示第一相似性分数权重因子,β表示第二相似性分数的权重因子,m表示预设调节值,[*]
+
为max(*,0)...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。