一种基于相同语义特征的对抗样本生成方法与系统技术方案

技术编号:38832224 阅读:15 留言:0更新日期:2023-09-17 09:51
本发明专利技术公开了一种基于相同语义特征的对抗样本生成方法与系统,涉及人工智能安全的技术领域,包括获取原始图像样本并对应生成扰动样本,输入待攻击的神经网络模型,计算第一相似性分数和第二相似性分数;对相似性分数设置权重因子调整扰动样本,获得优化后的扰动样本;计算优化后的扰动样本的上界并进行约束,获得初始对抗样本;判断初始对抗样本是否满足预设要求,若不满足,将初始对抗样本作为新的扰动样本进行新一轮迭代,否则获得最终对抗样本。本发明专利技术稳定性和成功率高,不限制特定的数据集,使得生成的对抗样本更具有普适性和可迁移性,且误导分类器时保持高度不可感知,提高了对抗攻击的可靠性和实用性,达到有效欺骗分类器的目的。类器的目的。类器的目的。

【技术实现步骤摘要】
一种基于相同语义特征的对抗样本生成方法与系统


[0001]本专利技术涉及人工智能安全的
,更具体地,涉及一种基于相同语义特征的对抗样本生成方法与系统。

技术介绍

[0002]随着深度学习的发展,神经网络在现实世界的识别任务中表现出了非常优秀的性能。然而,近年来研究表明,神经网络对于图像破坏和对抗实例具有一定的脆弱性,这阻碍了其在人工智能安全关键领域的应用,但推动了对神经网络鲁棒性的研究。为了产生对抗性的实例,最直观的方法是通过梯度下降来增加分类损失的代价,并应用lp距离来限制良性图像与扰动图像之间的视觉差异。然而,传统方法存在两个开放性问题的影响:一是在不同数据集之间泛化的固有局限性,在机器学习中,为了进行攻击,通常需要使用代理分类器来生成代表目标类别的学习权重向量,并将其用于误导模型。然而,这种攻击方法仅限于针对同一组类别的训练数据和攻击数据进行的情况,即白盒或代理分类器的攻击范例。在现实世界中,面临着开放集问题,即输入数据可能属于模型未曾见过的新颖类别,这种情况下,基于代理分类器的攻击无法奏效,因为代理分类器并没有包含来自“未知”类别的信息。二是对于人类视觉隐蔽性的差异问题,有学者已经证明,lp距离度量并不能准确地评估感知相似性。即仅仅依靠扰动强度无法清晰地反映出视觉上的不可感知差异。例如,著名的攻击方法C&W所产生的扰动在光滑背景上会变得更加容易被察觉。一系列的工作诉诸于设计感知相似性度量来限制对抗实例生成过程中的扰动,根据对象结构、边缘、颜色和学习感知图像块相似性的相似性,提出了其他感知距离,以提高扰动的不可感知性。
[0003]现有技术公开了一种高迁移性的对抗样本生成方法和系统,方法包括获取原始图像在指定的深度学习网络多个中间层的特征图;根据中间层的激活值和梯度将所有特征图划分为正向特征区域和负向特征区域;将所有指定中间层的不同区域加权求和作为损失函数,以使用动量法对损失函数进行处理得到每次迭代攻击的对抗样本;在迭代攻击次数达到预设次数的情况下生成高迁移性的对抗样本。该现有技术需要通过准确的特征划分方式,聚合多个中间层的特征信息,限制大,生成对抗样本的稳定性和成功率低。

技术实现思路

[0004]本专利技术为克服上述现有对抗攻击技术需要针对性设计扰动,在跨数据集泛化方面存在局限性的缺陷,提供一种基于相同语义特征的对抗样本生成方法与系统,能够攻击语义相似的特征表示,不限制特定的数据集,稳定性和成功率高,提高了扰动的不可感知性,有效欺骗分类器。
[0005]为解决上述技术问题,本专利技术的技术方案如下:
[0006]本专利技术提供了一种基于相同语义特征的对抗样本生成方法,包括:
[0007]S1:获取原始图像样本和待攻击的神经网络模型,并对原始图像样本对应生成扰动样本;
[0008]S2:将原始图像样本和扰动样本输入待攻击的神经网络模型,计算扰动样本和相对应的原始图像样本的第一相似性分数、扰动样本和其他原始图像样本的第二相似性分数;
[0009]S3:对第一相似性分数和第二相似性分数设置相应的权重因子,根据第一相似性分数及其权重因子、第二相似性分数及其权重因子对扰动样本进行调整,获得优化后的扰动样本;
[0010]S4:利用一阶导数逼近算法计算所述优化后的扰动样本的上界,利用所述上界对所述优化后的扰动样本进行约束,获得初始对抗样本;
[0011]S5:判断所述初始对抗样本是否满足预设要求;若满足,将所述初始对抗样本作为最终对抗样本;若不满足,将所述初始对抗样本作为新的扰动样本,重复步骤S2

S5,直到满足预设要求,获得最终对抗样本。
[0012]优选地,所述扰动样本的初始值为原始图像样本。
[0013]优选地,将原始图像样本和扰动样本输入待攻击的神经网络模型,计算扰动样本和相对应的原始图像样本的第一相似性分数具体方法为:
[0014]将原始图像样本和扰动样本按批次输入待攻击的神经网络模型,经待攻击的神经网络模型处理后,获得原始图像样本输出结果和扰动样本输出结果;
[0015]根据扰动样本输出结果和相对应的原始图像样本输出结果,计算自反相似性分数,作为第一相似性分数:
[0016][0017]式中,S

i,i
表示第i个扰动样本与第i个原始图像样本的第一相似性分数,x

i
表示第i个扰动样本,x
i
表示第i个原始图像样本;f(*)表示待攻击的神经网络模型,f(x

i
)表示第i个扰动样本输出结果,f(x
i
)表示第i个原始图像样本输出结果;(*)
T
表示求取转置操作,||*||2表示求取L2范数操作。
[0018]优选地,将原始图像样本和扰动样本输入待攻击的神经网络模型,计算扰动样本和其他原始图像样本的第二相似性分数的具体方法为:
[0019]对于每个其他原始图像样本输出结果,分别与扰动样本输出结果计算差值相似性分数:
[0020][0021]式中,S

i,j
表示第i个扰动样本与第j个原始图像样本的第一相似性分数差值相似性分数,x
j
表示第j个原始图像样本,f(x
j
)表示第j个原始图像样本输出结果,i≠j;
[0022]将所有差值相似性分数中分数值最小的差值相似性分数作为第二相似性分数min{(S

i,j
|j≠i)}。
[0023]优选地,所述对第一相似性分数和第二相似性分数设置相应的权重因子的具体方法为:
[0024]预设调节值,根据调节值分别设置第一相似性分数和第二相似性分数相应的权重因子:
[0025]α=[S

i,i

m]+
[0026]β=[1+m

min{(S

i,j
|j≠i)}]+
[0027]式中,α表示第一相似性分数权重因子,β表示第二相似性分数的权重因子;[*]+
为max(*,0),表示取*与0之间较大值的函数;m表示预设调节值,m≥0,在扰动样本优化的过程中,相似度接近的项会分配一个较小的梯度,而相似度相差较大的项会被分配一个较大的梯度。
[0028]优选地,所述根据第一相似性分数及其权重因子、第二相似性分数及其权重因子对扰动样本进行调整,获得优化后的扰动样本的具体方法为:
[0029][0030]式中,表示第i个优化后的扰动样本,表示当*取最小值时,求取x

i
取值的函数。
[0031]表示降低扰动样本与原始图像样本的相似度,增加扰动样本与一个配中最不相似原始图像样本的相似度,从而误导分类器把对抗样本映射在不同的子空间中。
[0032]优选地,所述步骤S4的具体方法:
[0033]根据优化后的扰动样本和与其对应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于相同语义特征的对抗样本生成方法,其特征在于,包括:S1:获取原始图像样本和待攻击的神经网络模型,并对原始图像样本对应生成扰动样本;S2:将原始图像样本和扰动样本输入待攻击的神经网络模型,计算扰动样本和相对应的原始图像样本的第一相似性分数、扰动样本和其他原始图像样本的第二相似性分数;S3:对第一相似性分数和第二相似性分数设置相应的权重因子,根据第一相似性分数及其权重因子、第二相似性分数及其权重因子对扰动样本进行调整,获得优化后的扰动样本;S4:利用一阶导数逼近算法计算所述优化后的扰动样本的上界,利用所述上界对所述优化后的扰动样本进行约束,获得初始对抗样本;S5:判断所述初始对抗样本是否满足预设要求;若满足,将所述初始对抗样本作为最终对抗样本;若不满足,将所述初始对抗样本作为新的扰动样本,重复步骤S2

S5,直到满足预设要求,获得最终对抗样本。2.根据权利要求1所述的基于相同语义特征的对抗样本生成方法,其特征在于,将原始图像样本和扰动样本输入待攻击的神经网络模型,计算扰动样本和相对应的原始图像样本的第一相似性分数具体方法为:将原始图像样本和扰动样本按批次输入待攻击的神经网络模型,经待攻击的神经网络模型处理后,获得原始图像样本输出结果和扰动样本输出结果;根据扰动样本输出结果和相对应的原始图像样本输出结果,计算自反相似性分数,作为第一相似性分数:式中,S
i≠,i
表示第i个扰动样本与第i个原始图像样本的第一相似性分数,x
i

表示第i个扰动样本,x
i
表示第i个原始图像样本;f(*)表示待攻击的神经网络模型,f(x
i

)表示第i个扰动样本输出结果,f(x
i
)表示第i个原始图像样本输出结果;(*)
T
表示求取转置操作,‖*‖2表示求取L2范数操作。3.根据权利要求2所述的基于相同语义特征的对抗样本生成方法,其特征在于,将原始图像样本和扰动样本输入待攻击的神经网络模型,计算扰动样本和其他原始图像样本的第二相似性分数的具体方法为:对于每个其他原始图像样本输出结果,分别与扰动样本输出结果计算差值相似性分数:式中,S
i

,j
表示第i个扰动样本与第j个原始图像样本的第一相似性分数差值相似性分数,x
j
表示第j个原始图像样本,f(x
j
)表示第j个原始图像样本输出结果,i≠j;将所有差值相似性分数中分数值最小的差值相似性分数作为第二相似性分数min{
i

,j
|j≠i)}。4.根据权利要求3所述的基于相同语义特征的对抗样本生成方法,其特征在于,所述对
第一相似性分数和第二相似性分数设置相应的权重因子的具体方法为:预设调节值,根据调节值分别设置第一相似性分数和第二相似性分数相应的权重因子:α=[S
i

,i

]
+
β=[1+

min{(S
i

,j
|j≠i)}]
+
式中,α表示第一相似性分数权重因子,β表示第二相似性分数的权重因子,m表示预设调节值,[*]
+
为max(*,0)...

【专利技术属性】
技术研发人员:凌捷凌海罗玉
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1