一种可解释区域引导的对抗样本检测方法技术

技术编号:28560338 阅读:17 留言:0更新日期:2021-05-25 17:55
本发明专利技术公开了一种可解释区域引导的对抗样本检测方法,采用了深度学习模型的可解释方法引导特征压缩:首先应用可解释方法,得到输入样本的可解释结果,并分割出可解释区域和非可解释区域;然后对输入样本非可解释区域对应的图像部分进行特征压缩,并得到特征压缩前后的模型预测变化,最终根据正常样本和对抗样本在预测变化上的不同实现对对抗样本的检测。通过以上方法,提高了检测的性能,减少误报率与漏报率。为深度学习模型的对抗样本检测防御提供了一种新的防御方法。

【技术实现步骤摘要】
一种可解释区域引导的对抗样本检测方法
本专利技术属于智能系统安全和深度学习模型可解释性领域,特别涉及一种可解释区域引导的对抗样本检测方法。
技术介绍
随着深度神经网络、人工智能的快速发展,深度学习算法越来越多地应用于各个领域,比如图像分类、图像识别、物体检测,并且有着非常显著的优势,但在某些方面也有着明显的不足。首先就是我们无法解释深度神经网络模型的决策过程,目前有很多关于深度神经网络模型可解释性的研究,可以将图像中对模型决策起重要作用的区域高亮出来。此外,对抗样本也是深度神经网络的进一步应用所必须要解决的关键问题。所谓对抗样本,在图像识别领域,是指对图像样本加入“精心设计”的细微扰动,人眼基本看不出有任何变化,但是深度神经网络模型却分类错误的这些样本。因此当在一些与安全密切相关的领域,比如医学诊断领域,自动驾驶领域和恶意软件检测等领域应用深度神经网络模型时,我们必须检测和防御对抗样本。目前,关于对抗样本的防御技术,主要可以分为三大类:对抗训练、梯度掩蔽和输入转换。对抗训练是指首先产生对抗样本,再将对抗样本和其对应的正常标签引入到训练中,进行重新训练。那么在一定程度上,重新训练后的模型,就对用于训练的对抗样本以及与之相似的对抗样本产生鲁棒性。但是,当对抗样本与用于训练的对抗样本有一定差距时,仍会攻击成功。“梯度掩蔽”防御试图降低DNN模型对输入微小变化的敏感性。但是对于这种防御方法,研究表明,由于对抗样本的可转移性,防御成功的概率有限。输入转换是指不改变原始的DNN模型,而是在进行预测之前,对模型的输入进行变换,代表性的方法就是特征压缩。但是特征压缩方法没有考虑可解释结果,直接对整个输入图像进行特征压缩,可能会使正常样本的可解释区域受到太大扰动,造成正常样本被误分类为对抗样本。
技术实现思路
本专利技术的内容在于提出一种可解释区域引导的对抗样本检测方法,以克服特征压缩方法在检测对抗样本中的不足。本方法采用了深度学习模型的可解释方法引导特征压缩:首先应用可解释方法,得到输入样本的可解释结果,并分割出可解释区域和非可解释区域;然后对输入样本非可解释区域对应的图像部分进行特征压缩,并得到特征压缩前后的模型预测变化,最终根据正常样本和对抗样本在预测变化上的不同实现对对抗样本的检测。通过以上方法,提高了检测的性能,减少误报率与漏报率。为深度学习模型的对抗样本检测防御提供了一种新的防御方法。为了达到上述目的,本专利技术采用以下技术方案予以实现,包括以下步骤:1)、得到输入样本的可解释结果,并分割出可解释区域和非可解释区域:步骤S1:通过分析样本数据集,得到相应的训练集和测试集,构建卷积神经网络模型,并进行训练和测试,得到具有良好分类性能的卷积神经网络模型;步骤S2:通过分析卷积神经网络模型的结构,应用可解释方法,得到输入样本对应的可解释结果;步骤S3:基于图像分割思想,首先对得到的可解释结果生成分割阈值,再根据阈值将其分割成为相应的可解释区域和非可解释区域;2)、对输入样本非可解释区域对应的图像部分进行特征压缩,并得到特征压缩前后的模型预测变化,最终根据正常样本和对抗样本在预测变化上的不同实现对对抗样本的检测:步骤S4:对正常样本非可解释区域对应的图像部分进行联合特征压缩,得到其压缩前后的模型预测变化,从正常样本的预测变化diff中选择一个阈值∈,使得正常样本的预测变化大于此阈值∈的比率不超过0.05;步骤S5:对输入样本非可解释区域对应的图像部分进行联合特征压缩,得到其压缩前后的模型预测变化pre-diff;步骤S6:根据步骤S4得到的阈值∈,如果步骤S5的预测变化pre-diff大于阈值∈,判断输入样本为对抗样本;小于阈值∈,判断输入样本为对抗样本,以此来实现对对抗样本的检测。进一步的,所述步骤S1的具体方法为:步骤S101:得到样本数据集A,并将样本数据集A划分为独立的训练集B和测试集步骤S102:通过分析样本数据集A中的图片大小和分类数目,构建与其对应的卷积神经网络模型;步骤S103:通过训练集B进行优化训练,并通过测试集D测试训练好的模型;步骤S104:如果测试的分类性能不能满足要求,改变卷积神经网络模型结构,返回步骤S103;步骤S105:最终得到具有良好分类性能的卷积神经网络模型。进一步的,所述步骤S2的具体方法为:步骤S201:分析步骤S1训练好的卷积神经网络模型的结构,得到每个卷积层的输出表示。计算卷积神经网络倒数第二层的K个特征映射Ak,采用全局平均池化(GlobalAveragePooling,GAP)和线性变换得到每个类别c分数的yc;步骤S202:然后计算分数yc相对于特征映射Ak的梯度经过GAP得到神经元的重要性权重公式如下:步骤S203:通过一个加权的前向激活映射组合,再经过ReLU激活函数,得到每个类c对应的Grad-CAM可解释结果为:步骤S204:通过将Grad-CAM可解释方法得到的可解释结果与GuidedBackPropagation可解释方法得到的可解释结果进行点积运算得到最终的GuidedGrad-CAM可解释结果。进一步的,所述步骤S3的具体方法为:步骤S301:首先对于步骤S2得到的输入样本可解释结果,生成其相应的直方图;步骤S302:选择一个初始的阈值θ;步骤S303:用θ来分割图像,将得到两组像素点G1和G2。其中G1中的像素点的像素值大于阈值θ;其中G2中的像素点的像素值小于阈值θ;步骤S304:计算两组像素点中像素值的均值,G1中的像素值均值用mean1表示;G2中的像素值均值用mean2表示;步骤S305:计算新的阈值θ=(1/2)(mean1+mean2);步骤S306:重复步骤S303到步骤S305,直到相邻两次阈值θ之间的差距小于预定义的一个很小的常数θ0;步骤S307:对于可解释结果中大于分割阈值θ的部分,被划分为可解释区域;小于分割阈值θ的部分,被划分为非可解释区域。进一步的,所述步骤S4的具体方法为:步骤S401:选择部分正常样本作为计算阈值∈的训练样本;步骤S402:选择降低比特位深度、中值滤波和高斯滤波作为联合特征压缩的三个特征压缩方法;步骤S403:将正常样本经过联合特征压缩器,对其步骤S3所得到的非可解释区域对应的图像部分进行特征压缩,之后再输入卷积神经网络模型,并得到其预测值;步骤S404:与未经过联合特征压缩得到的预测值进行比较,得到预测变化diff;步骤S405:从正常样本的预测变化diff中选择一个阈值∈,使得正常样本的预测变化大于此阈值∈的比率不超过0.05。进一步的,所述步骤S4实现联合特征压缩的具体方法为:步骤S501:选择特征压缩方法:降低比特位深度、中值滤波和高斯滤波;步骤S502:计算输入样本经过每个特征压缩方法后的模本文档来自技高网
...

【技术保护点】
1.一种可解释区域引导的对抗样本检测方法,其特征在于,包括如下步骤:/n1)、得到输入样本的可解释结果,并分割出可解释区域和非可解释区域:/n步骤S1:通过分析样本数据集,得到相应的训练集和测试集,构建卷积神经网络模型,并进行训练和测试,得到具有良好分类性能的卷积神经网络模型;/n步骤S2:通过分析卷积神经网络模型的结构,应用可解释方法,得到输入样本对应的可解释结果;/n步骤S3:基于图像分割思想,首先对得到的可解释结果生成分割阈值,再根据阈值将其分割成为相应的可解释区域和非可解释区域;/n2)、对输入样本非可解释区域对应的图像部分进行特征压缩,并得到特征压缩前后的模型预测变化,最终根据正常样本和对抗样本在预测变化上的不同实现对对抗样本的检测:/n步骤S4:对正常样本非可解释区域对应的图像部分进行联合特征压缩,得到其压缩前后的模型预测变化,从正常样本的预测变化diff中选择一个阈值∈,使得正常样本的预测变化大于此阈值∈的比率不超过0.05;/n步骤S5:对输入样本非可解释区域对应的图像部分进行联合特征压缩,得到其压缩前后的模型预测变化pre-diff;/n步骤S6:根据步骤S4得到的阈值∈,如果步骤S5的预测变化pre-diff大于阈值∈,判断输入样本为对抗样本;小于阈值∈,判断输入样本为对抗样本,以此来实现对对抗样本的检测。/n...

【技术特征摘要】
1.一种可解释区域引导的对抗样本检测方法,其特征在于,包括如下步骤:
1)、得到输入样本的可解释结果,并分割出可解释区域和非可解释区域:
步骤S1:通过分析样本数据集,得到相应的训练集和测试集,构建卷积神经网络模型,并进行训练和测试,得到具有良好分类性能的卷积神经网络模型;
步骤S2:通过分析卷积神经网络模型的结构,应用可解释方法,得到输入样本对应的可解释结果;
步骤S3:基于图像分割思想,首先对得到的可解释结果生成分割阈值,再根据阈值将其分割成为相应的可解释区域和非可解释区域;
2)、对输入样本非可解释区域对应的图像部分进行特征压缩,并得到特征压缩前后的模型预测变化,最终根据正常样本和对抗样本在预测变化上的不同实现对对抗样本的检测:
步骤S4:对正常样本非可解释区域对应的图像部分进行联合特征压缩,得到其压缩前后的模型预测变化,从正常样本的预测变化diff中选择一个阈值∈,使得正常样本的预测变化大于此阈值∈的比率不超过0.05;
步骤S5:对输入样本非可解释区域对应的图像部分进行联合特征压缩,得到其压缩前后的模型预测变化pre-diff;
步骤S6:根据步骤S4得到的阈值∈,如果步骤S5的预测变化pre-diff大于阈值∈,判断输入样本为对抗样本;小于阈值∈,判断输入样本为对抗样本,以此来实现对对抗样本的检测。


2.根据权利要求1所述的可解释区域引导的对抗样本检测方法,其特征在于,所述步骤S1的具体方法为:
步骤S101:得到样本数据集A,并将样本数据集A划分为独立的训练集B和测试集
步骤S102:通过分析样本数据集A中的图片大小和分类数目,构建与其对应的卷积神经网络模型;
步骤S103:通过训练集B进行优化训练,并通过测试集D测试训练好的模型;
步骤S104:如果测试的分类性能不能满足要求,改变卷积神经网络模型结构,返回步骤S103;
步骤S105:最终得到具有良好分类性能的卷积神经网络模型。


3.根据权利要求1所述的可解释区域引导的对抗样本检测方法,其特征在于,所述步骤S2的具体方法为:
步骤S201:分析步骤S1训练好的卷积神经网络模型的结构,得到每个卷积层的输出表示。计算卷积神经网络倒数第二层的K个特征映射Ak,采用全局平均池化(GlobalAveragePooling,GAP)和线性变换得到每个类别c分数的yc;
步骤S202:然后计算分数yc相对于特征映射Ak的梯度经过GAP得到神经元的重要性权重公式如下:



步骤S203:通过一个加权的前向激活映射组合,再经过ReLU激活函数,得到每个类c对应的Grad-CAM可解释结果为:



步骤S204:通过将Grad-CAM可解释方法得到的可解释结果与GuidedBackPropagation可解释方法得到的可解释结果进行点积运算得到最终的GuidedGrad-CAM可解释结果。...

【专利技术属性】
技术研发人员:范铭魏佳利刘烃徐茜贾昂魏闻英
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1