基于生成学习的AI安全性检测方法技术

技术编号:35344504 阅读:22 留言:0更新日期:2022-10-26 12:09
一种基于生成学习的AI安全性检测系统,包括:1)引入AdvGAN方法,搭建AdvGAN网络架构并训练网络模型;2)直接获取训练好的生成器G用于生成对抗样本;将一个真正的输入图像x输入生成器G,输出扰动图G(x);该扰动图被覆盖在输入图像之上,以获得对抗样本x

【技术实现步骤摘要】
基于生成学习的AI安全性检测方法


[0001]本专利技术涉及利用生成对抗网络来生直接生成对抗样本的方法。
[0002]本专利技术涉及神经网络,深度学习等领域,具体涉及基于生成对抗网络、对抗样本领域。

技术介绍

[0003]在深度神经网络(DNNs)被作为物联网时代重要分析工具的时代背景下,研究人工智能的安全性检测系统具有重要的参考意义。考虑到人工智能和DNN技术举足轻重到地位,学术界正提携着巨大的利益来提高任何基于DNN以及其他的深度模型技术的安全性,并抵御可能的恶意攻击。对抗性攻击问题近年来已成为一个非常活跃的领域,引起了学术界和产业界的极大关注和努力。而安全性检测系统是通过对抗样本攻击人工智能系统,以获得与预期不同的预测结果,来检测人工智能系统的安全性的系统。通过安全性检测系统的评估,可以对人工智能系统进行针对性的增强,以提高人工智能系统的安全性。当前的主要的安全检测系统通常是对人工智能系统进行特定方向的攻击,无法对系统进行一个全面且真实的评估。
[0004]生成模型是一种能够学习特定分布的输入和目标分布的输出之间映射的模型。近年来,生成对抗网络(GANs)已成为可以说是最强大的生成模型,在各种图像生成等操作问题上取得了最先进的成果。GANs由两个神经网络模型:生成器G和鉴别器D组成,它们互相训练、博弈,竞争最小与最大。G的目标是从x中学习隐形空间在pg上的分布,以便它能够产生尽可能真实的生成样本。G可以通过采样输入变量z,然后利用微分网络,将变量映射到数据空间G(z)。D是一个目标学习区分生成器生成的样本和真实样本的分类器。在训练过程中, G和D相互竞争,并逐渐提高各自任务的表现。
[0005]尽管取得了巨大的成功,但大多数现有的攻击都需要显示计算扰动向量,并将其叠加到原始输入上。基于梯度的攻击存在推理速度较慢的问题。传统的GAN也没有对生成的数据的显式控制,换句话说,数据以一种无监督的方式生成,其类是完全随机的。这在很大程度上仍是一个悬而未决的问题,更有说服力的解释尚未浮出水面。

技术实现思路

[0006]为了克服现有的不足,本专利技术提出了一种基于生成学习的AI安全性检测方法。本专利技术构建AdvGAN网络结构,包括生成器G、鉴别器D和目标模型C,分别设立不同的目标函数、损失函数,然后输入原始图像进行训练,使生成器G学习到目标模型的内部知识。训练完成之后,直接获取生成器,原始图像通过生成器得到扰动图,并将扰动图覆盖在原始图像上得到对抗样本。令目标模型对对抗样本进行预测并且评估攻击速度、攻击成功率和感知相似度,对目标模型的安全度进行评估。与传统的基于梯度优化的方法相比,本专利技术只需训练GAN模型一次,在推理时使用预先训练的生成器立即和无限期地从良性图像获取对抗样本,同时至少对对抗样本的质量有某种形式的监督,使产生的扰动更好地与输入中包含的潜在
边缘和形状对齐,因此看起来更自然,人眼无法察觉,且无需完全访问目标模型的体系结构和模型参数,解决了基于梯度的攻击推理速度慢的问题,是一种比白盒攻击更为强大的半白盒攻击。
[0007]本专利技术提供如下的技术方案:
[0008]一种基于生成模型的AI安全性检测方法,其特征在于,包含以下步骤:
[0009]1)引入AdvGAN方法,搭建AdvGAN网络架构并训练。
[0010]1.1)搭建GAN网络中的生成器G,确立目标函数;搭建GAN网络中的判别器D,确立目标函数和损失函数。生成器和鉴别器是两个独立的模型,他们拥有不同的目标函数和损失函数,这里需要对他们分别进行设置。
[0011]1.2)对AdvGAN网络的目标函数、损失函数进行定义,构建完整的AdvGAN网络架构。整个网络主要有三部分组成,分别是生成器G、判别器D和目标模型C。其中,生成器G的输入是原始的干净图像,输出是一个扰动图。将扰动图覆盖在原始干净图上可得到对抗样本。对抗样本作为目标模型C的输入,对抗样本和原始干净图像共同作为鉴别器D的输入。鉴别器和目标模型的输出都是对输入的一个预测结果。
[0012]1.3)将原始数据集输入AdvGAN进行模型训练。
[0013]2)AdvGAN训练完成后,直接获取生成器G用于生成对抗样本。此时生成器已经针对目标网络学习到了其内部知识,因此,将一个真正的输入图像x输入生成器即得到一个扰动图 G(x),该扰动图被覆盖在输入图像之上,以获得对抗样本x

=x+G(x)。
[0014]3)定义攻击评估参数:攻击成功率、感知相似度和攻击速度。
[0015]4)令目标网络对对抗样本进行预测并界定攻击成功率、度量感知相似度、评估攻击速度。当且仅当三个指标均达到标准值时,认为网络是安全的。
[0016]进一步的,所述步骤1.1)具体过程如下:
[0017]1.1.1)搭建生成器的网络架构。
[0018]本专利技术避免在生成器和鉴别器集中,使用弯曲的卷积来执行向下抽样。对于在生成器中的 up抽样操作,使用的是反向采样卷积,而不是转置卷积以避免潜在的工作。该生成器包括四个连接的残余块组成。除最后一个非残差卷积层之后只有一个BN层外,每个非残差卷积层之后都有批化(BN)和ReLU激活函数。该生成器的所有卷积层都使用3
×
3内核。具体结构可见图 2。
[0019]1.1.2)选取生成器G的目标函数。
[0020]选择最小平方损失,以获得更稳定的训练和更高的质量输出。数学上,为了最小平方损失,训练生成器损失函数使其最小化:
[0021]Ex

~px

(x)[D(G(x)

1))2]ꢀꢀꢀꢀꢀꢀ
(1.1)
[0022]1.1.3)搭建鉴别器的网络架构。
[0023]对于鉴别器,每次卷积之后都是Leaky ReLU激活。除了第一个卷积层外,在每个卷积层之后立即使用BN。该鉴别器的所有卷积层均采用4
×
4核。具体结构可见图2。
[0024]1.1.4)确立鉴别器D的损失函数。
[0025]采用最优连续波损失函数,即:
[0026]floss(x

)=(max
i≠t
(Z(x

)
i
)

Z(x

)
t
)
+
ꢀꢀꢀꢀꢀꢀꢀ
(1.2)
[0027]其中Z(x)表示来自目标模型的对数,t是针对目标攻击最初定义的目标标签,致使
该损失函数旨在最小化目标类和最重要的非目标类(即真正的类)的预测分数之间的差异,从而鼓励目标类获得更高的分数。(e)+表示MAX(e,0),这是为了阻止目标类型的分数超过边界类型的分数,该分数希望扰动推动样本略微跨越决策边界,使得分类器产生错误的预测的同时最大限度地保留良性输入的原始特征。
[0028]1.1.5)确立鉴别器D的目标函数。...

【技术保护点】

【技术特征摘要】
1.基于生成学习的AI安全性检测方法,包括以下步骤:1)引入AdvGAN方法,搭建AdvGAN网络架构并训练网络模型;1.1)搭建AdvGAN网络中的生成器G,确立目标函数;搭建AdvGAN网络中的判别器D,确立目标函数和损失函数;1.2)构建完整的AdvGAN网络架构;具体来说,对AdvGAN网络的目标函数、损失函数进行定义;将生成器、鉴别器与目标模型进行连接;原始图像作为生成器G的输入,经生成器输出得到扰动图;将扰动图覆盖于原始干净图上得到对抗样本,对抗样本作为目标模型C的输入;对抗样本和原始干净图像共同作为鉴别器D的输入;鉴别器和目标模型的输出都是对输入的一个预测结果;1.3)将原始数据集输入AdvGAN进行训练;具体来说,将数据集输入鉴别器进行迭代训练,更新鉴别器将其最大化;紧接着,从重新训练的数据空间中获取样本,输入生成器,更新生成器参数,将其最小化;2)直接获取训练好的生成器G用于生成对抗样本;将一个真正的输入图像x输入生成器G,输出扰动图G(x);该扰动图被覆盖在输入图像之上,以获得对抗样本x

=x+G(x);3)定义攻击评估参数:攻击成功率、感知相似度和攻击速度;4)目标网络对对抗样本进行预测得到结果;针对预测结果,利用步骤3中定义的攻击评估参数进行评估,得到网络的安全性。2.根据权利要求1所述的一种基于生成学习的AI安全性检测系统,其特征在于,所述步骤1.1)具体过程如下:1.1.1)搭建生成器的网络架构;避免在生成器和鉴别器集中,而是使用弯曲的卷积来执行向下抽样;对于在生成器中的up抽样操作,反向采样然后卷积;该生成器由四个连接的残余块组成;除最后一个非残差卷积层之后只有一个BN层外,每个非残差卷积层之后都有批化(BN)和ReLU激活函数;该生成器的所有卷积层都使用3
×
3内核;1.1.2)选取生成器G的目标函数;选择最小平方损失,以获得更稳定的训练和更高的质量输出;数学上,为了最小平方损失,训练生成器损失函数使其最小化:Ex

~px

(x)[D(G(x)

1))2]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1.1)1.1.3)搭建鉴别器的网络架构;对于鉴别器,每次卷积之后都是Leaky ReLU激活;除了第一个卷积层外,在每个卷积层之后立即使用BN;该鉴别器的所有卷积层均采用4
×
4核;1.1.4)确立鉴别器D的损失函数;鉴别器的损失函数采用最优连续波损失函数,即:floss(x

)=(max
i≠t
(Z(x

)
i
)

Z(x

)
t
)
+
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1.2)其中Z(x)表示来自目标模型的对数;t是针对目标攻击最初定义的目标标签;(e)+表示MAX(e,0),起到阻止目标类型的分数超过边界类型的分数的效果;1.1.5)确立鉴别器D的目标函数;将鉴别器最小化,使用目标函数:L
adv
=Ex[floss(G(x),l

)]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1.3)
其中l'是任意不同于X的原始标签的标签,floss是步骤1.1.2)中鉴别器D的损失函数。3.根据权利要求1所述的一种基于生成学习的AI安全性检测系统,其特征在于,所述步骤1.2)具体过程如下:1.2.1)确立AdvGAN网络的损失函数;1.2.1.1)为了获得对置信度(以及对抗能力)的控制,引入了一个参数κ,用公式来表达则是:floss(x

)=(max(max
i≠t
(Z(x

)
i
)

Z(x

)
t
,

κ)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1.4)κ表示允许目标类的逻辑值高于真实类的逻辑值的边缘;κ越大,对抗样本越过决策边界的距离越远,欺骗目标分类器的信心就越大;1.2.1.2)修改无目标攻击设置的CW损失函数;为了最小化真实类与其余预测的类中得分最大的类之间的差异,非目标CW损失函数被公式化为:floss(x

【专利技术属性】
技术研发人员:高楠李北步申屠琦超臧志阳庞亚鹏谢晨翔
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1