基于神经元加固的图像分类深度模型中毒防御方法及装置制造方法及图纸

技术编号：36604375 阅读：18 留言：0更新日期：2023-02-04 18:24

本发明专利技术公开了一种基于神经元加固的图像分类深度模型中毒防御方法及装置，该方法将一批干净样本输入到模型中，以神经元激活值和其出现频率，以及其对模型性能的影响为基准，寻找需要加固的神经元，之后将其他神经元固定下来，只加固这些选定的神经元，将训练集中的样本输入到模型中，通过对损失函数梯度上升作为导向来更新加固神经元，不断迭代直到模型趋于收敛稳定，得到干净的图像分类深度模型，用于图像分类任务。本发明专利技术解决了现有模型中毒防御方法在祛毒的同时没有增强模型鲁棒性的问题，并且模型在主任务上仍保留很高的准确率。本发明专利技术只需要用到少量的测试样本即可获得不错的效果，适用性较好。适用性较好。适用性较好。

全部详细技术资料下载

【技术实现步骤摘要】
基于神经元加固的图像分类深度模型中毒防御方法及装置

[0001]本专利技术属于面向图像分类深度模型的安全问题领域，具体涉及一种基于神经元加固的图像分类深度模型中毒防御方法及装置。

技术介绍

[0002]深度强化学习是近年来人工智能备受关注的方向之一，随着深度学习的快速发展和应用和人工智能技术的不断发展，深度学习的研究成果已经在自然语言处理、图像识别、工业控制、信号处理、安全等领域得到广泛应用。其中安全应用尤其重要，若在自动驾驶、军事作战、舆论战等安全领域的数据或算法存在漏洞，则将带来重大的人身伤害和财产损失。例如，仅2018年全球发生了12起自动驾驶车祸，包括Uber、特斯拉、福特、谷歌等自动驾驶研发AI巨头，因此研究针对深度学习模型的攻击进而发现模型中存在的漏洞并进行防御至关重要。
[0003]深度学习的发展与高性能GPU处理能力的增强，使得神经网络结构变得越来越复杂，模型参数量也越来越庞大，深度学习的安全性遇到了巨大的困难和挑战。目前针对深度学习模型的攻击主要分为中毒攻击和对抗攻击。中毒攻击发生在模型训练阶段，攻击者将中毒样本注入训练数据集，从而在训练完成的深度学习模型中嵌入后门触发器，在测试阶段输入毒药样本，则触发攻击爆发。对抗攻击发生在模型测试阶段，攻击者通过在原始数据上添加精心设计的微小扰动得到对抗样本，从而对深度学习模型进行愚弄，使其以较高置信度误判的恶意攻击。其中针对深度学习模型的中毒攻击尤其多。现有的深度学习模型中毒防御方法专注于消除模型的毒性以及增强模型的鲁棒性。忽略了在此过程中的时间花费以...

【技术保护点】

【技术特征摘要】
1.一种基于神经元加固的深度学习模型中毒防御方法，其特征在于，包括以下步骤：S1，准备图像数据集，选择深度学习网络，利用中毒攻击方法生成中毒样本并添加到训练集中，训练得到中毒模型；S2，寻找需要加固的神经元，包括以下子步骤：S2.1，将训练集中的干净样本作为测试样本，选取一类的某测试样本输入到中毒模型中，统计模型全连接层激活值的Top
‑
K神经元，同时记录全连接层上抽样得到的测试样本对应的Top
‑
K神经元中频率最高的K个神经元，作为此类的主要神经元，最终得到各类的主要神经元；S2.2，在各类主要神经元中统计公共部分，构成神经元集合N；S2.3，将神经元集合N中的各神经元按其在各类测试样本上Top
‑
K神经元中出现的次数之和进行排序，定义集合在神经元集合N中从前向后依次选取神经元添加至集合M中，在每次添加后将集合M中的所有神经元权重降低至20％以下，使用模型的准确率下降程度作为加固神经元判别标准，如果准确率下降小于等于10％，则在神经元集合N中继续选取神经元进行添加操作，否则将集合M中最近添加的神经元去除后作为加固神经元集合；S3，将不需要加固的神经元固定下来，之后进行加固神经元操作，具体为：计算图像分类深度模型损失函数的梯度并反向传播，依据梯度来微调加固神经元，最终得到干净的图像分类深度模型，用于图像分类任务。2.根据权利要求1所述的基于神经元加固的深度学习模型中毒防御方法，其特征在于，所述图像数据集选自MNIST，CIFAR10，ImageNet，GTSRB，CASIA。3.根据权利要求1所述的基于神经元加固的深度学习模型中毒防御方法，其特征在于，所述中毒攻击方法选自BadNets，PoisonFrog，Trojannn，Feature Collis...

【专利技术属性】
技术研发人员：陈晋音，李潇，张任杰，赵云波，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人