基于神经元加固的图像分类深度模型中毒防御方法及装置制造方法及图纸

技术编号:36604375 阅读:18 留言:0更新日期:2023-02-04 18:24
本发明专利技术公开了一种基于神经元加固的图像分类深度模型中毒防御方法及装置,该方法将一批干净样本输入到模型中,以神经元激活值和其出现频率,以及其对模型性能的影响为基准,寻找需要加固的神经元,之后将其他神经元固定下来,只加固这些选定的神经元,将训练集中的样本输入到模型中,通过对损失函数梯度上升作为导向来更新加固神经元,不断迭代直到模型趋于收敛稳定,得到干净的图像分类深度模型,用于图像分类任务。本发明专利技术解决了现有模型中毒防御方法在祛毒的同时没有增强模型鲁棒性的问题,并且模型在主任务上仍保留很高的准确率。本发明专利技术只需要用到少量的测试样本即可获得不错的效果,适用性较好。适用性较好。适用性较好。

【技术实现步骤摘要】
基于神经元加固的图像分类深度模型中毒防御方法及装置


[0001]本专利技术属于面向图像分类深度模型的安全问题领域,具体涉及一种基于神经元加固的图像分类深度模型中毒防御方法及装置。

技术介绍

[0002]深度强化学习是近年来人工智能备受关注的方向之一,随着深度学习的快速发展和应用和人工智能技术的不断发展,深度学习的研究成果已经在自然语言处理、图像识别、工业控制、信号处理、安全等领域得到广泛应用。其中安全应用尤其重要,若在自动驾驶、军事作战、舆论战等安全领域的数据或算法存在漏洞,则将带来重大的人身伤害和财产损失。例如,仅2018年全球发生了12起自动驾驶车祸,包括Uber、特斯拉、福特、谷歌等自动驾驶研发AI巨头,因此研究针对深度学习模型的攻击进而发现模型中存在的漏洞并进行防御至关重要。
[0003]深度学习的发展与高性能GPU处理能力的增强,使得神经网络结构变得越来越复杂,模型参数量也越来越庞大,深度学习的安全性遇到了巨大的困难和挑战。目前针对深度学习模型的攻击主要分为中毒攻击和对抗攻击。中毒攻击发生在模型训练阶段,攻击者将中毒样本注入训练数据集,从而在训练完成的深度学习模型中嵌入后门触发器,在测试阶段输入毒药样本,则触发攻击爆发。对抗攻击发生在模型测试阶段,攻击者通过在原始数据上添加精心设计的微小扰动得到对抗样本,从而对深度学习模型进行愚弄,使其以较高置信度误判的恶意攻击。其中针对深度学习模型的中毒攻击尤其多。现有的深度学习模型中毒防御方法专注于消除模型的毒性以及增强模型的鲁棒性。忽略了在此过程中的时间花费以及模型在干净样本下的准确率。这就引出了一个问题:如何在不影响甚至优化原模型干净样本准确率的情况下,防御针对模型的诸多中毒攻击。

技术实现思路

[0004]目前,图像分类深度模型的中毒与防御是一个持续博弈的境况。基于现有的中毒防御方法没有完全考虑到训练的时间成本以及模型的鲁棒性,本专利技术提出一种基于神经元加固的图像分类深度模型中毒防御方法,本专利技术利用样本在模型中前向传播时激活神经元的差异,先找到需要加固的神经元,然后根据梯度反向传播来微调加固神经元,从而提高模型应对中毒攻击的鲁棒性,达到模型中毒防御的效果。
[0005]本专利技术的目的是通过以下技术方案来实现的:
[0006]根据本说明书的第一方面,提供一种基于神经元加固的图像分类深度模型中毒防御方法,该方法包括以下步骤:
[0007]S1,准备图像数据集,选择深度学习网络,利用中毒攻击方法生成中毒样本并添加到训练集中,训练得到中毒模型;
[0008]S2,寻找需要加固的神经元,包括以下子步骤:
[0009]S2.1,将训练集中的干净样本作为测试样本,选取一类的某测试样本输入到中毒
模型中,统计模型全连接层激活值的Top

K神经元,同时记录全连接层上抽样得到的测试样本对应的Top

K神经元中频率最高的K个神经元,作为此类的主要神经元,最终得到各类的主要神经元;
[0010]S2.2,在各类主要神经元中统计公共部分,构成神经元集合N;
[0011]S2.3,将神经元集合N中的各神经元按其在各类测试样本上Top

K神经元中出现的次数之和进行排序,定义集合在神经元集合N中从前向后依次选取神经元添加至集合M中,在每次添加后将集合M中的所有神经元权重降低至20%以下,使用模型的准确率下降程度作为加固神经元判别标准,如果准确率下降小于等于10%,则在神经元集合N中继续选取神经元进行添加操作,否则将集合M中最近添加的神经元去除后作为加固神经元集合;
[0012]S3,将不需要加固的神经元固定下来,之后进行加固神经元操作,具体为:计算图像分类深度模型损失函数的梯度并反向传播,依据梯度来微调加固神经元,最终得到干净的图像分类深度模型,用于图像分类任务。
[0013]进一步地,所述图像数据集选自MNIST,CIFAR10,ImageNet,GTSRB,CASIA。
[0014]进一步地,所述中毒攻击方法选自BadNets,PoisonFrog,Trojannn,Feature Collision Attack。
[0015]进一步地,所述深度学习网络选自LeNet,AlexNet,VGG11,ResNet34。
[0016]进一步地,针对在MNIST数据集上BadNets中毒,取标签是“0”的训练样本的10%在左上角打上直角型触发器,再把标签改为“1”添加到训练集中,然后开始训练模型,打了触发器的样本即为中毒样本。
[0017]进一步地,在某类主要神经元的确定过程中,测试样本的抽样率不低于10%。
[0018]进一步地,当目标模型带毒时,神经元集合N中会出现一些由于攻击导致的高激活神经元,使得此类神经元在各类测试样本的Top

K神经元中出现频率较高,将此类神经元的权重降低至20%以下,并不会对模型的准确率造成大于等于10%的性能下降,以此为依据进行加固神经元筛选。
[0019]进一步地,所述图像分类深度模型的损失函数采用如下交叉熵损失函数loss:
[0020][0021]其中,M是图像类别的数量;y
ic
为符号函数,如果样本i的真实类别等于c取1,否则取0;P
ic
表示样本i属于类别c的预测概率,N表示样本数量。
[0022]根据本说明书的第二方面,提供一种基于神经元加固的图像分类深度模型中毒防御装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现如第一方面所述的基于神经元加固的图像分类深度模型中毒防御方法。
[0023]本专利技术的有益效果主要表现在:对于现有图像分类深度模型中毒防御方法不考虑模型防御之后的鲁棒性,提出了一种基于神经元加固的图像分类深度模型中毒防御方法。在真实图像分类深度模型上的实验结果表明,该方法具有良好的适用性,能够有效的防御中毒攻击,并且不影响模型正常样本的正确率。
附图说明
[0024]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
[0025]图1是本专利技术实施例中基于神经元加固的图像分类深度模型中毒防御方法框图。
[0026]图2为本专利技术实施例中的LeNet网络结构示意图。
[0027]图3是本专利技术实施例中基于神经元加固的图像分类深度模型中毒防御装置结构图。
具体实施方式
[0028]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域的普通技术人员在没有做出创造性劳动前提下所获得的所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经元加固的深度学习模型中毒防御方法,其特征在于,包括以下步骤:S1,准备图像数据集,选择深度学习网络,利用中毒攻击方法生成中毒样本并添加到训练集中,训练得到中毒模型;S2,寻找需要加固的神经元,包括以下子步骤:S2.1,将训练集中的干净样本作为测试样本,选取一类的某测试样本输入到中毒模型中,统计模型全连接层激活值的Top

K神经元,同时记录全连接层上抽样得到的测试样本对应的Top

K神经元中频率最高的K个神经元,作为此类的主要神经元,最终得到各类的主要神经元;S2.2,在各类主要神经元中统计公共部分,构成神经元集合N;S2.3,将神经元集合N中的各神经元按其在各类测试样本上Top

K神经元中出现的次数之和进行排序,定义集合在神经元集合N中从前向后依次选取神经元添加至集合M中,在每次添加后将集合M中的所有神经元权重降低至20%以下,使用模型的准确率下降程度作为加固神经元判别标准,如果准确率下降小于等于10%,则在神经元集合N中继续选取神经元进行添加操作,否则将集合M中最近添加的神经元去除后作为加固神经元集合;S3,将不需要加固的神经元固定下来,之后进行加固神经元操作,具体为:计算图像分类深度模型损失函数的梯度并反向传播,依据梯度来微调加固神经元,最终得到干净的图像分类深度模型,用于图像分类任务。2.根据权利要求1所述的基于神经元加固的深度学习模型中毒防御方法,其特征在于,所述图像数据集选自MNIST,CIFAR10,ImageNet,GTSRB,CASIA。3.根据权利要求1所述的基于神经元加固的深度学习模型中毒防御方法,其特征在于,所述中毒攻击方法选自BadNets,PoisonFrog,Trojannn,Feature Collis...

【专利技术属性】
技术研发人员:陈晋音李潇张任杰赵云波
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1