一种对抗样本检测方法及通用对抗攻击防御系统技术方案

技术编号：27460891 阅读：28 留言：0更新日期：2021-02-25 05:19

本发明专利技术公开了一种对抗样本检测方法，所述方法包括：获取训练数据集用于训练深度神经网络模型，获取预测单元A；利用基于训练数据集生成的对抗样本，通过对抗训练方法训练深度神经网络模型，获取预测单元B；将训练数据集和对抗样本均输入至预测单元A、B中进行推理，分别提取相同卷积层输出的特征图并拼接，将拼接图作为分类训练数据集；采用分类训练数据集训练深度神经网络二分类模型，获取对抗样本检测模块；将需检测的输入样本分别输入至预测单元A、B中进行推理，分别提取相同卷积层输出的特征图并进行拼接，然后将拼接图输入至对抗样本检测模块中进行检测，获取检测结果y

全部详细技术资料下载

【技术实现步骤摘要】
一种对抗样本检测方法及通用对抗攻击防御系统

[0001]本专利技术涉及人工智能
领域，更具体地，涉及一种对抗样本检测方法及通用对抗攻击防御系统。

技术介绍

[0002]深度神经网络在人脸识别、图像分类、文本分析等任务上都取得了非常好的效果。然而，近几年的研究发现，基于深度神经网络的图像分类器能够被别有用心的攻击者攻陷，通过在图像上加一个人肉眼不可见的扰动，使得图像分类器将其错分为另一个类别，这些被恶意修改的图像被称为对抗样本，给现有的诸多应用带来了安全隐患。
[0003]目前，关于对抗样本的生成算法，已有很多研究成果。对抗攻击算法从是否已知模型结构、参数、梯度等信息分为白盒攻击算法和黑盒攻击算法。白盒攻击算法已知目标模型的信息，能够有针对性的生成更有效的对抗样本。而黑盒攻击算法由于不知道目标模型的结构、参数等信息，只能获得输出类别，常见的方法有梯度估计或利用对抗样本的迁移性来攻击目标网络，相对来说攻击难度会高很多，效果较差。
[0004]根据是否要使目标分类器错分对抗样本为指定类别，可以将对抗攻击分为有目标对抗攻击和无目标对抗攻击。有目标对抗攻击在生成对抗样本时，需要指定目标类别，只有当能够生成使目标分类器错分为指定类别的对抗样本时，才认定为攻击成功。而无目标对抗攻击仅需使目标分类器错分对抗样本为任意非正确类别即可。
[0005]此外，衡量对抗样本与干净样本之间的差异时，一般使用L
p
范数距离度量。其中，L
∞
：||z||
∞
＝max...

【技术保护点】

【技术特征摘要】
1.一种对抗样本检测方法，其特征在于，包括以下步骤：S1：获取训练数据集并用于训练深度神经网络模型，获取预测单元A；S2：利用基于训练数据集生成的对抗样本，通过对抗训练方法训练与步骤S1中结构相同的深度神经网络模型，获取预测单元B；S3：将原训练数据集和对抗样本均输入至预测单元A、预测单元B中进行推理，分别提取相同卷积层输出的特征图并进行拼接，将拼接图作为分类训练数据集；S4：采用分类训练数据集训练深度神经网络二分类模型，获取对抗样本检测模块；S5：将需要进行检测的输入样本分别输入至预测单元A、预测单元B中进行推理，分别提取相同卷积层输出的特征图并进行拼接，然后将拼接图输入至对抗样本检测模块中进行检测，获取检测结果y
detector
。2.根据权利要求1所述的一种对抗样本检测方法，其特征在于，在所述步骤S3中，将原训练数据集记为标签0，将对抗样本记为标签1。3.根据权利要求2所述的一种对抗样本检测方法，其特征在于，在所述步骤S5中获取检测结果y
detector
，其中：若检测结果y
detector
＝0，则表示输入样本为干净样本；若检测结果y
detector
＝1，则表示输入样本为对抗样本。4.根据权利要求1所述的一种对抗样本检测方法，其特征在于，在所述步骤S1中采用ImageNet数据集训练ResNet101模型以获取预测单元A；在所述步骤S2中采用ImageNet数据集训练ResNet101模型以获取预测单元B，训练参数与所述步骤S1相同。5.根据权利要求1所述的一种对抗样本检测方法，其特征在于，在所述步骤S2通过对抗训练方法训练深度神经网络模型前，采用PGD算法对训练数据集每轮迭代时输入的图像添加扰动，生成对抗样本。6.根据权利要求1所述的一种对抗样本检测方法，其特征在于，在所述步骤S4中采用Softmax交叉熵损失函数训练深度神经网络二分类模型，获取对抗样本检测模块。7.一种通用对抗攻击防御系统，其特征在于，包括预...

【专利技术属性】
技术研发人员：王青，叶佳全，吴贺丰，林倞，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人