当前位置: 首页 > 专利查询>中山大学专利>正文

一种对抗样本检测方法及通用对抗攻击防御系统技术方案

技术编号:27460891 阅读:50 留言:0更新日期:2021-02-25 05:19
本发明专利技术公开了一种对抗样本检测方法,所述方法包括:获取训练数据集用于训练深度神经网络模型,获取预测单元A;利用基于训练数据集生成的对抗样本,通过对抗训练方法训练深度神经网络模型,获取预测单元B;将训练数据集和对抗样本均输入至预测单元A、B中进行推理,分别提取相同卷积层输出的特征图并拼接,将拼接图作为分类训练数据集;采用分类训练数据集训练深度神经网络二分类模型,获取对抗样本检测模块;将需检测的输入样本分别输入至预测单元A、B中进行推理,分别提取相同卷积层输出的特征图并进行拼接,然后将拼接图输入至对抗样本检测模块中进行检测,获取检测结果y

【技术实现步骤摘要】
一种对抗样本检测方法及通用对抗攻击防御系统


[0001]本专利技术涉及人工智能
领域,更具体地,涉及一种对抗样本检测方法及通用对抗攻击防御系统。

技术介绍

[0002]深度神经网络在人脸识别、图像分类、文本分析等任务上都取得了非常好的效果。然而,近几年的研究发现,基于深度神经网络的图像分类器能够被别有用心的攻击者攻陷,通过在图像上加一个人肉眼不可见的扰动,使得图像分类器将其错分为另一个类别,这些被恶意修改的图像被称为对抗样本,给现有的诸多应用带来了安全隐患。
[0003]目前,关于对抗样本的生成算法,已有很多研究成果。对抗攻击算法从是否已知模型结构、参数、梯度等信息分为白盒攻击算法和黑盒攻击算法。白盒攻击算法已知目标模型的信息,能够有针对性的生成更有效的对抗样本。而黑盒攻击算法由于不知道目标模型的结构、参数等信息,只能获得输出类别,常见的方法有梯度估计或利用对抗样本的迁移性来攻击目标网络,相对来说攻击难度会高很多,效果较差。
[0004]根据是否要使目标分类器错分对抗样本为指定类别,可以将对抗攻击分为有目标对抗攻击和无目标本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种对抗样本检测方法,其特征在于,包括以下步骤:S1:获取训练数据集并用于训练深度神经网络模型,获取预测单元A;S2:利用基于训练数据集生成的对抗样本,通过对抗训练方法训练与步骤S1中结构相同的深度神经网络模型,获取预测单元B;S3:将原训练数据集和对抗样本均输入至预测单元A、预测单元B中进行推理,分别提取相同卷积层输出的特征图并进行拼接,将拼接图作为分类训练数据集;S4:采用分类训练数据集训练深度神经网络二分类模型,获取对抗样本检测模块;S5:将需要进行检测的输入样本分别输入至预测单元A、预测单元B中进行推理,分别提取相同卷积层输出的特征图并进行拼接,然后将拼接图输入至对抗样本检测模块中进行检测,获取检测结果y
detector
。2.根据权利要求1所述的一种对抗样本检测方法,其特征在于,在所述步骤S3中,将原训练数据集记为标签0,将对抗样本记为标签1。3.根据权利要求2所述的一种对抗样本检测方法,其特征在于,在所述步骤S5中获取检测结果y
detector
,其中:若检测结果y
detector
=0,则表示输入样本为干净样本;若检测结果y
detector
=1,则表示输入样本为对抗样本。4.根据权利要求1所述的一种对抗样本检测方法,其特征在于,在所述步骤S1中采用ImageNet数据集训练ResNet101模型以获取预测单元A;在所述步骤S2中采用ImageNet数据集训练ResNet101模型以获取预测单元B,训练参数与所述步骤S1相同。5.根据权利要求1所述的一种对抗样本检测方法,其特征在于,在所述步骤S2通过对抗训练方法训练深度神经网络模型前,采用PGD算法对训练数据集每轮迭代时输入的图像添加扰动,生成对抗样本。6.根据权利要求1所述的一种对抗样本检测方法,其特征在于,在所述步骤S4中采用Softmax交叉熵损失函数训练深度神经网络二分类模型,获取对抗样本检测模块。7.一种通用对抗攻击防御系统,其特征在于,包括预...

【专利技术属性】
技术研发人员:王青叶佳全吴贺丰林倞
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1