当前位置: 首页 > 专利查询>中山大学专利>正文

一种对抗样本检测方法及通用对抗攻击防御系统技术方案

技术编号:27460891 阅读:28 留言:0更新日期:2021-02-25 05:19
本发明专利技术公开了一种对抗样本检测方法,所述方法包括:获取训练数据集用于训练深度神经网络模型,获取预测单元A;利用基于训练数据集生成的对抗样本,通过对抗训练方法训练深度神经网络模型,获取预测单元B;将训练数据集和对抗样本均输入至预测单元A、B中进行推理,分别提取相同卷积层输出的特征图并拼接,将拼接图作为分类训练数据集;采用分类训练数据集训练深度神经网络二分类模型,获取对抗样本检测模块;将需检测的输入样本分别输入至预测单元A、B中进行推理,分别提取相同卷积层输出的特征图并进行拼接,然后将拼接图输入至对抗样本检测模块中进行检测,获取检测结果y

【技术实现步骤摘要】
一种对抗样本检测方法及通用对抗攻击防御系统


[0001]本专利技术涉及人工智能
领域,更具体地,涉及一种对抗样本检测方法及通用对抗攻击防御系统。

技术介绍

[0002]深度神经网络在人脸识别、图像分类、文本分析等任务上都取得了非常好的效果。然而,近几年的研究发现,基于深度神经网络的图像分类器能够被别有用心的攻击者攻陷,通过在图像上加一个人肉眼不可见的扰动,使得图像分类器将其错分为另一个类别,这些被恶意修改的图像被称为对抗样本,给现有的诸多应用带来了安全隐患。
[0003]目前,关于对抗样本的生成算法,已有很多研究成果。对抗攻击算法从是否已知模型结构、参数、梯度等信息分为白盒攻击算法和黑盒攻击算法。白盒攻击算法已知目标模型的信息,能够有针对性的生成更有效的对抗样本。而黑盒攻击算法由于不知道目标模型的结构、参数等信息,只能获得输出类别,常见的方法有梯度估计或利用对抗样本的迁移性来攻击目标网络,相对来说攻击难度会高很多,效果较差。
[0004]根据是否要使目标分类器错分对抗样本为指定类别,可以将对抗攻击分为有目标对抗攻击和无目标对抗攻击。有目标对抗攻击在生成对抗样本时,需要指定目标类别,只有当能够生成使目标分类器错分为指定类别的对抗样本时,才认定为攻击成功。而无目标对抗攻击仅需使目标分类器错分对抗样本为任意非正确类别即可。
[0005]此外,衡量对抗样本与干净样本之间的差异时,一般使用L
p
范数距离度量。其中,L

:||z||

=max
i
|z
i
|,该范数度量任意维度上的最大变化,对于图像意味着度量每个像素上的最大变化,任意像素的变化不会超过该上界;上的最大变化,任意像素的变化不会超过该上界;该范数即为干净样本与对抗样本之间的欧氏距离,表示每个像素变化的平方和在开平方,当大多数像素变化都很小时,该范数计算出来的值也会比较小;L0:||z||0=#{i|z
i
≠0},该范数度量图像中像素修改的数量,至于修改像素的变化绝对值不在度量范畴中。
[0006]常见的对抗攻击算法有很多。其中,Goodfellow等人猜想深度神经网络之所以容易被对抗样本攻击,是因为深度神经网络具有线性特性,提出了快速梯度符号算法(Fast Gradient Sign Method,FGSM),通过在干净样本的每一维加上损失函数对干净样本偏导方向的微小扰动,创建出使损失函数最大化的对抗样本。Kurakin等人扩展了快速梯度符号算法,提出了基本迭代算法(Basic Iterative Method,BIM),通过采用多轮次小步长迭代替换快速梯度算法中一次大步长的方式,进一步增大了损失函数。DeepFool算法通过在分类器输出空间中搜索可以改变分类器决策的最小扰动来生成对抗样本。
[0007]为了增强模型的鲁棒性,研究者们提出了诸多算法来防御对抗攻击。其中,对抗训练方法通过在训练阶段,引入对抗样本及其正确类别一起作为训练数据来训练网络,以期望模型能够学到如何避免对抗扰动的干扰。梯度屏蔽方法,通过在训练阶段对目标函数添加一个梯度惩罚项,来使得模型尽可能产生接近零的梯度,降低模型对微小扰动的敏感性。防御蒸馏算法,利用原始模型的输出作为新的标签训练另一个结构相似的模型,来防御对
抗样本的攻击。还有另一类算法,通过对输入图像进行变换来降低模型对微小变化的敏感性。
[0008]近几年,部分研究者的工作重点在于对抗样本的检测。Feinman等人提出使用核密度估计,利用深度神经网络中间的一些隐藏层,测量一个未知输入与一批干净样本之间的距离,若距离超过指定阈值则认定为是一个对抗样本。Metzen等人提出在原始模型中间的隐藏层接一个基于深度神经网络的检测器,即一个二分类来区分干净样本和对抗样本,且在训练检测器时,固定原始模型的参数不变,因此不会影响到原始模型的精度。此外,还有一类算法通过对样本进行变换,将样本和变换后的样本分别输入到模型中,比较预测结果的差异,若超过指定阈值则认定为是对抗样本,否则为干净样本。
[0009]基于样本统计的对抗样本方法计算量较大,且只能检测出远离干净样本群体的对抗样本,相比其他对抗样本检测算法,使用样本统计方法来区分对抗样本的性能较差。此外,现有的在原始模型隐藏层外接检测器的方法,对于部分类型的对抗样本检测效果不理想。而通过对输入样本进行多种变换分别输入模型,比较模型输出的不一致性来检测对抗样本的方法,计算量也比较大,因为这种方法往往需要数次的模型推理才能获得比较好的效果。
[0010]此外,现有的对抗攻击防御算法在提升模型对抗样本鲁棒性的同时,往往会降低原始模型的精度,难以兼顾模型的鲁棒性与精度。
[0011]在现有技术中,公开号为CN111783085A的中国专利技术专利,于2020年10月16日公开了一种对抗样本攻击的防御方法、装置及电子设备,其中所述方法包括:获取原始样本并进行预处理;根据深度神经网络分类模型和预处理后的样本生成对抗样本;输入原始样本和对抗样本,分别获得原始样本和对抗样本基于所述深度神经网络分类模型的表征;对原始样本和对抗样本的表征进行匹配;以表征匹配误差为正则项构建目标函数,实施防御训练;对待测样本进行预处理;将所述预处理后的待测样本输入至防御训练后的深度神经网络分类模型中,输出分类结果。虽然该方案在一定程度上解决现有深度神经网络对对抗样本的分类精度低的问题,但是并未能解决特定对抗攻击方法生成的对抗样本检测准确率差、计算复杂度高以及提升模型对抗样本鲁棒性时需要损失一定精度的问题,因此,急需一种对抗样本检测方法及通用对抗攻击防御系统。

技术实现思路

[0012]本专利技术为解决特定对抗攻击方法生成的对抗样本检测准确率差、计算复杂度高以及提升模型对抗样本鲁棒性时需要损失一定精度的问题,提供一种对抗样本检测方法及通用对抗攻击防御系统。
[0013]本专利技术的首要目的是为解决上述技术问题,本专利技术的技术方案如下:
[0014]首先,提出一种对抗样本检测方法,包括以下步骤:
[0015]S1:获取训练数据集并用于训练深度神经网络模型,获取预测单元A;
[0016]S2:利用基于训练数据集生成的对抗样本,通过对抗训练方法训练与步骤S1中结构相同的深度神经网络模型,获取预测单元B;
[0017]S3:将原训练数据集和对抗样本均输入至预测单元A、预测单元B中进行推理,分别提取相同卷积层输出的特征图并进行拼接,将拼接图作为分类训练数据集;
[0018]S4:采用分类训练数据集训练深度神经网络二分类模型,获取对抗样本检测模块;
[0019]S5:将需要进行检测的输入样本分别输入至预测单元A、预测单元B中进行推理,分别提取相同卷积层输出的特征图并进行拼接,然后将拼接图输入至对抗样本检测模块中进行检测,获取检测结果y
detector

[0020]优选地,在所述步骤S3中,将原训练数据集记为标签0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对抗样本检测方法,其特征在于,包括以下步骤:S1:获取训练数据集并用于训练深度神经网络模型,获取预测单元A;S2:利用基于训练数据集生成的对抗样本,通过对抗训练方法训练与步骤S1中结构相同的深度神经网络模型,获取预测单元B;S3:将原训练数据集和对抗样本均输入至预测单元A、预测单元B中进行推理,分别提取相同卷积层输出的特征图并进行拼接,将拼接图作为分类训练数据集;S4:采用分类训练数据集训练深度神经网络二分类模型,获取对抗样本检测模块;S5:将需要进行检测的输入样本分别输入至预测单元A、预测单元B中进行推理,分别提取相同卷积层输出的特征图并进行拼接,然后将拼接图输入至对抗样本检测模块中进行检测,获取检测结果y
detector
。2.根据权利要求1所述的一种对抗样本检测方法,其特征在于,在所述步骤S3中,将原训练数据集记为标签0,将对抗样本记为标签1。3.根据权利要求2所述的一种对抗样本检测方法,其特征在于,在所述步骤S5中获取检测结果y
detector
,其中:若检测结果y
detector
=0,则表示输入样本为干净样本;若检测结果y
detector
=1,则表示输入样本为对抗样本。4.根据权利要求1所述的一种对抗样本检测方法,其特征在于,在所述步骤S1中采用ImageNet数据集训练ResNet101模型以获取预测单元A;在所述步骤S2中采用ImageNet数据集训练ResNet101模型以获取预测单元B,训练参数与所述步骤S1相同。5.根据权利要求1所述的一种对抗样本检测方法,其特征在于,在所述步骤S2通过对抗训练方法训练深度神经网络模型前,采用PGD算法对训练数据集每轮迭代时输入的图像添加扰动,生成对抗样本。6.根据权利要求1所述的一种对抗样本检测方法,其特征在于,在所述步骤S4中采用Softmax交叉熵损失函数训练深度神经网络二分类模型,获取对抗样本检测模块。7.一种通用对抗攻击防御系统,其特征在于,包括预...

【专利技术属性】
技术研发人员:王青叶佳全吴贺丰林倞
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1