一种可解释区域引导的对抗样本检测方法技术

技术编号：28560338 阅读：17 留言：0更新日期：2021-05-25 17:55

本发明专利技术公开了一种可解释区域引导的对抗样本检测方法，采用了深度学习模型的可解释方法引导特征压缩：首先应用可解释方法，得到输入样本的可解释结果，并分割出可解释区域和非可解释区域；然后对输入样本非可解释区域对应的图像部分进行特征压缩，并得到特征压缩前后的模型预测变化，最终根据正常样本和对抗样本在预测变化上的不同实现对对抗样本的检测。通过以上方法，提高了检测的性能，减少误报率与漏报率。为深度学习模型的对抗样本检测防御提供了一种新的防御方法。

全部详细技术资料下载

【技术实现步骤摘要】
一种可解释区域引导的对抗样本检测方法
本专利技术属于智能系统安全和深度学习模型可解释性领域，特别涉及一种可解释区域引导的对抗样本检测方法。
技术介绍
随着深度神经网络、人工智能的快速发展，深度学习算法越来越多地应用于各个领域，比如图像分类、图像识别、物体检测，并且有着非常显著的优势，但在某些方面也有着明显的不足。首先就是我们无法解释深度神经网络模型的决策过程，目前有很多关于深度神经网络模型可解释性的研究，可以将图像中对模型决策起重要作用的区域高亮出来。此外，对抗样本也是深度神经网络的进一步应用所必须要解决的关键问题。所谓对抗样本，在图像识别领域，是指对图像样本加入“精心设计”的细微扰动，人眼基本看不出有任何变化，但是深度神经网络模型却分类错误的这些样本。因此当在一些与安全密切相关的领域，比如医学诊断领域，自动驾驶领域和恶意软件检测等领域应用深度神经网络模型时，我们必须检测和防御对抗样本。目前，关于对抗样本的防御技术，主要可以分为三大类：对抗训练、梯度掩蔽和输入转换。对抗训练是指首先产生对抗样本，再将对抗样本和其对应的正常标签引入到训练中，进行重新训练。那么在一定程度上，重新训练后的模型，就对用于训练的对抗样本以及与之相似的对抗样本产生鲁棒性。但是，当对抗样本与用于训练的对抗样本有一定差距时，仍会攻击成功。“梯度掩蔽”防御试图降低DNN模型对输入微小变化的敏感性。但是对于这种防御方法，研究表明，由于对抗样本的可转移性，防御成功的概率有限。输入转换是指不改变原始的DNN模型，而是在进行预测...

【技术保护点】
1.一种可解释区域引导的对抗样本检测方法，其特征在于，包括如下步骤：/n1)、得到输入样本的可解释结果，并分割出可解释区域和非可解释区域：/n步骤S1：通过分析样本数据集，得到相应的训练集和测试集，构建卷积神经网络模型，并进行训练和测试，得到具有良好分类性能的卷积神经网络模型；/n步骤S2：通过分析卷积神经网络模型的结构，应用可解释方法，得到输入样本对应的可解释结果；/n步骤S3：基于图像分割思想，首先对得到的可解释结果生成分割阈值，再根据阈值将其分割成为相应的可解释区域和非可解释区域；/n2)、对输入样本非可解释区域对应的图像部分进行特征压缩，并得到特征压缩前后的模型预测变化，最终根据正常样本和对抗样本在预测变化上的不同实现对对抗样本的检测：/n步骤S4：对正常样本非可解释区域对应的图像部分进行联合特征压缩，得到其压缩前后的模型预测变化，从正常样本的预测变化diff中选择一个阈值∈，使得正常样本的预测变化大于此阈值∈的比率不超过0.05；/n步骤S5：对输入样本非可解释区域对应的图像部分进行联合特征压缩，得到其压缩前后的模型预测变化pre-diff；/n步骤S6：根据步骤S4得到的阈...

【技术特征摘要】
1.一种可解释区域引导的对抗样本检测方法，其特征在于，包括如下步骤：
1)、得到输入样本的可解释结果，并分割出可解释区域和非可解释区域：
步骤S1：通过分析样本数据集，得到相应的训练集和测试集，构建卷积神经网络模型，并进行训练和测试，得到具有良好分类性能的卷积神经网络模型；
步骤S2：通过分析卷积神经网络模型的结构，应用可解释方法，得到输入样本对应的可解释结果；
步骤S3：基于图像分割思想，首先对得到的可解释结果生成分割阈值，再根据阈值将其分割成为相应的可解释区域和非可解释区域；
2)、对输入样本非可解释区域对应的图像部分进行特征压缩，并得到特征压缩前后的模型预测变化，最终根据正常样本和对抗样本在预测变化上的不同实现对对抗样本的检测：
步骤S4：对正常样本非可解释区域对应的图像部分进行联合特征压缩，得到其压缩前后的模型预测变化，从正常样本的预测变化diff中选择一个阈值∈，使得正常样本的预测变化大于此阈值∈的比率不超过0.05；
步骤S5：对输入样本非可解释区域对应的图像部分进行联合特征压缩，得到其压缩前后的模型预测变化pre-diff；
步骤S6：根据步骤S4得到的阈值∈，如果步骤S5的预测变化pre-diff大于阈值∈，判断输入样本为对抗样本；小于阈值∈，判断输入样本为对抗样本，以此来实现对对抗样本的检测。

2.根据权利要求1所述的可解释区域引导的对抗样本检测方法，其特征在于，所述步骤S1的具体方法为：
步骤S101：得到样本数据集A，并将样本数据集A划分为独立的训练集B和测试集
步骤S102：通过分析样本数据集A中的图片大小和分类数目，构建与其对应的卷积神经网络模型；
步骤S103：通过训练集B进行优化训练，并通过测试集D测试训练好的模型；
步骤S104：如果测试的分类性能不能满足要求，改变卷积神经网络模型结构，返回步骤S103；
步骤S105：最终得到具有良好分类性能的卷积神经网络模型。

3.根据权利要求1所述的可解释区域引导的对抗样本检测方法，其特征在于，所述步骤S2的具体方法为：
步骤S201：分析步骤S1训练好的卷积神经网络模型的结构，得到每个卷积层的输出表示。计算卷积神经网络倒数第二层的K个特征映射Ak，采用全局平均池化(GlobalAveragePooling，GAP)和线性变换得到每个类别c分数的yc；
步骤S202：然后计算分数yc相对于特征映射Ak的梯度经过GAP得到神经元的重要性权重公式如下：

步骤S203：通过一个加权的前向激活映射组合，再经过ReLU激活函数，得到每个类c对应的Grad-CAM可解释结果为：

步骤S204：通过将Grad-CAM可解释方法得到的可解释结果与GuidedBackPropagation可解释方法得到的可解释结果进行点积运算得到最终的GuidedGrad-CAM可解释结果。...

【专利技术属性】
技术研发人员：范铭，魏佳利，刘烃，徐茜，贾昂，魏闻英，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人