【技术实现步骤摘要】
基于生成学习的AI安全性检测方法
[0001]本专利技术涉及利用生成对抗网络来生直接生成对抗样本的方法。
[0002]本专利技术涉及神经网络,深度学习等领域,具体涉及基于生成对抗网络、对抗样本领域。
技术介绍
[0003]在深度神经网络(DNNs)被作为物联网时代重要分析工具的时代背景下,研究人工智能的安全性检测系统具有重要的参考意义。考虑到人工智能和DNN技术举足轻重到地位,学术界正提携着巨大的利益来提高任何基于DNN以及其他的深度模型技术的安全性,并抵御可能的恶意攻击。对抗性攻击问题近年来已成为一个非常活跃的领域,引起了学术界和产业界的极大关注和努力。而安全性检测系统是通过对抗样本攻击人工智能系统,以获得与预期不同的预测结果,来检测人工智能系统的安全性的系统。通过安全性检测系统的评估,可以对人工智能系统进行针对性的增强,以提高人工智能系统的安全性。当前的主要的安全检测系统通常是对人工智能系统进行特定方向的攻击,无法对系统进行一个全面且真实的评估。
[0004]生成模型是一种能够学习特定分布的输入和目标分布的输出之间映射的模型。近年来,生成对抗网络(GANs)已成为可以说是最强大的生成模型,在各种图像生成等操作问题上取得了最先进的成果。GANs由两个神经网络模型:生成器G和鉴别器D组成,它们互相训练、博弈,竞争最小与最大。G的目标是从x中学习隐形空间在pg上的分布,以便它能够产生尽可能真实的生成样本。G可以通过采样输入变量z,然后利用微分网络,将变量映射到数据空间G(z)。D是一个目标学习区分生成器
【技术保护点】
【技术特征摘要】
1.基于生成学习的AI安全性检测方法,包括以下步骤:1)引入AdvGAN方法,搭建AdvGAN网络架构并训练网络模型;1.1)搭建AdvGAN网络中的生成器G,确立目标函数;搭建AdvGAN网络中的判别器D,确立目标函数和损失函数;1.2)构建完整的AdvGAN网络架构;具体来说,对AdvGAN网络的目标函数、损失函数进行定义;将生成器、鉴别器与目标模型进行连接;原始图像作为生成器G的输入,经生成器输出得到扰动图;将扰动图覆盖于原始干净图上得到对抗样本,对抗样本作为目标模型C的输入;对抗样本和原始干净图像共同作为鉴别器D的输入;鉴别器和目标模型的输出都是对输入的一个预测结果;1.3)将原始数据集输入AdvGAN进行训练;具体来说,将数据集输入鉴别器进行迭代训练,更新鉴别器将其最大化;紧接着,从重新训练的数据空间中获取样本,输入生成器,更新生成器参数,将其最小化;2)直接获取训练好的生成器G用于生成对抗样本;将一个真正的输入图像x输入生成器G,输出扰动图G(x);该扰动图被覆盖在输入图像之上,以获得对抗样本x
’
=x+G(x);3)定义攻击评估参数:攻击成功率、感知相似度和攻击速度;4)目标网络对对抗样本进行预测得到结果;针对预测结果,利用步骤3中定义的攻击评估参数进行评估,得到网络的安全性。2.根据权利要求1所述的一种基于生成学习的AI安全性检测系统,其特征在于,所述步骤1.1)具体过程如下:1.1.1)搭建生成器的网络架构;避免在生成器和鉴别器集中,而是使用弯曲的卷积来执行向下抽样;对于在生成器中的up抽样操作,反向采样然后卷积;该生成器由四个连接的残余块组成;除最后一个非残差卷积层之后只有一个BN层外,每个非残差卷积层之后都有批化(BN)和ReLU激活函数;该生成器的所有卷积层都使用3
×
3内核;1.1.2)选取生成器G的目标函数;选择最小平方损失,以获得更稳定的训练和更高的质量输出;数学上,为了最小平方损失,训练生成器损失函数使其最小化:Ex
′
~px
′
(x)[D(G(x)
‑
1))2]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1.1)1.1.3)搭建鉴别器的网络架构;对于鉴别器,每次卷积之后都是Leaky ReLU激活;除了第一个卷积层外,在每个卷积层之后立即使用BN;该鉴别器的所有卷积层均采用4
×
4核;1.1.4)确立鉴别器D的损失函数;鉴别器的损失函数采用最优连续波损失函数,即:floss(x
′
)=(max
i≠t
(Z(x
′
)
i
)
‑
Z(x
′
)
t
)
+
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1.2)其中Z(x)表示来自目标模型的对数;t是针对目标攻击最初定义的目标标签;(e)+表示MAX(e,0),起到阻止目标类型的分数超过边界类型的分数的效果;1.1.5)确立鉴别器D的目标函数;将鉴别器最小化,使用目标函数:L
adv
=Ex[floss(G(x),l
′
)]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1.3)
其中l'是任意不同于X的原始标签的标签,floss是步骤1.1.2)中鉴别器D的损失函数。3.根据权利要求1所述的一种基于生成学习的AI安全性检测系统,其特征在于,所述步骤1.2)具体过程如下:1.2.1)确立AdvGAN网络的损失函数;1.2.1.1)为了获得对置信度(以及对抗能力)的控制,引入了一个参数κ,用公式来表达则是:floss(x
′
)=(max(max
i≠t
(Z(x
′
)
i
)
‑
Z(x
′
)
t
,
‑
κ)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1.4)κ表示允许目标类的逻辑值高于真实类的逻辑值的边缘;κ越大,对抗样本越过决策边界的距离越远,欺骗目标分类器的信心就越大;1.2.1.2)修改无目标攻击设置的CW损失函数;为了最小化真实类与其余预测的类中得分最大的类之间的差异,非目标CW损失函数被公式化为:floss(x
【专利技术属性】
技术研发人员:高楠,李北步,申屠琦超,臧志阳,庞亚鹏,谢晨翔,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。