【技术实现步骤摘要】
基于后门不可迁移性的通用后门攻击检测方法
[0001]本专利技术属于信息安全
,具体涉及一种基于后门不可迁移性的通用后门攻击检测方法。
技术介绍
[0002]从图像分类,目标检测,自动驾驶,语音识别到文本生成,语言翻译,恶意软件检测,深度学习在广泛的应用中显示了惊人的性能。然而,深度学习模型也被证明是脆弱的,很容易被愚弄。最近,出现了一种新型的对抗性攻击,即后门攻击。在这种攻击中,攻击者在深度学习模型中插入一个后门(触发器),在正常输入情况下,该模型会像其干净模型一样正常运行,但一旦输入包含攻击者秘密选择的触发器,该模型就会出现错误行为。例如,一幅猫的图像被添加上触发器,使模型误将其分类为猪。由于对触发器的任意控制,后门攻击更加隐蔽,在现实世界场景中很容易实现。例如,触发器可以是一种天然的特定类型的眼镜或耳环,当面部识别系统被植入后门时,任何人戴上它都会被误认为是管理员。
[0003]深度学习模型很容易受到潜在后门攻击的影响,在这种情况下,被攻击的模型只会行为不当或在触发输入下被激活,否则正常运行。因此,检测后 ...
【技术保护点】
【技术特征摘要】
1.一种基于后门不可迁移性的通用后门攻击检测方法,其特征在于,包括以下步骤:S1、收集保留数据集,该数据集为用于训练待检测深度学习模型之前的数据集,为用户所保留;S2、收集与待检测深度学习模型相同或属于同类任务的开源预训练模型,作为特征提取器;S3、计算各类的类内相似度和类间相似度;S4、基于每类的相似度分别确定各类的独立阈值;S5、收集待检测深度学习模型运行时的数据:对于分类任务模型,给定一个输入样本会输出其预测类别;S6、计算待检测样本与预测类别的相似度与该类的阈值判断样本是否被加入了后门。2.根据权利要求1所述的基于后门不可迁移性的通用后门攻击检测方法,其特征在于,所述步骤S1具体实现方法为:S11、在训练一个深度学习模型之前,用户应保留一份原始数据集,该数据集未被其他人修改,属于原始数据集,记为保留数据集;S12、保留数据集的类别应包含所有待测数据集的类别,并且对于每个待测类别的样本数不少于10。3.根据权利要求2所述的基于后门不可迁移性的通用后门攻击检测方法,其特征在于,所述步骤S2具体实现方法为:S21、所需预训练模型的任务与待测深度学习模型相同或属于同类任务;S22、使用S21中所述的模型的倒数第二层神经网络的输出作为输入样本的特征向量,该预训练模型记为特征提取器。4.根据权利要求3所述的基于后门不可迁移性的通用后门攻击检测方法,其特征在于,所需预训练模型来自于ModelZoo、Kaggle和GitHub公共平台。5.根据权利要求3所述的基于后门不可迁移性的通用后门攻击检测方法,其特征在于,所述步骤S3具体实现方法为:S31、对输入到S22的特征提取器的样本进行预处理,使其符合模型的输入标准;S32、对于各类的样本随机选择一张样本记为x,之后分别随机选择一组同类别对比数据集样本{x1,x2,
…
,xn}和一组异类对比数据集{y1,y2,
…
,yn};S33、使用S22的特征提取器输出所有样本的特征向量;S34、分别计算x与其他所有样本的特征向量的相似度,采用皮尔逊相似度计算公式:其中A,B分别表示两个样本的n维特征向量,A
i
,B
i
分别表示A,B两特征向量的每个维度对应的值...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。