【技术实现步骤摘要】
一种基于目标特征增强生成网络的神经网络后门攻击方法
[0001]本专利技术属于深度学习
,具体涉及一种基于目标特征增强生成网络的神经网络后门攻击方法。
技术介绍
[0002]以深度神经网络模型为基础的人工智能技术迅速发展,在机器翻译、语音识别、场景分类和目标检测等任务领域中取得了优于传统算法的成绩。然而,由于深度神经网络的黑盒特性,其决策行为逻辑缺乏可解释性和透明性,使得深度神经网络的使用具有安全隐患,最近的研究表明神经网络模型易遭受攻击。神经网络攻击具体是指攻击者通过一定手段操纵网络模型做出错误决策的破坏性行为。目前针对深度神经网络的攻击方式可以分为三类:对抗攻击、投毒攻击和后门攻击。对抗攻击作用于在模型推理阶段,通过向干净样本中添加微小扰动噪声或补丁图案,诱导神经网络做出指定决策。对抗攻击需要在神经网络推理决策阶段对模型信息进行大量的访问才能构建出可误导模型的对抗样本,且只生成单一样本的对抗噪声。投毒攻击作用于模型训练阶段,通过添加恶意错误数据污染训练集从而降低模型的准确性,但却无法指定模型对特定样本做出指定的决策 ...
【技术保护点】
【技术特征摘要】
1.一种基于目标特征增强生成网络的神经网络后门攻击方法,其特征在于,包括以下步骤:步骤1:在干净训练数据集上对要攻击的神经网络模型进行预训练,完成指定数量的训练周期;步骤2:创建后门触发器生成网络,使用双步骤交替训练的方法优化训练触发器生成网络和要攻击的网络模型,直至达到指定迭代次数;步骤3:固定训练好的后门触发器生成网络参数权重,利用触发器生成网络在训练数据集中随机选取的部分样本中注入后门触发器,生成中毒数据集步骤4:在中毒数据集上对要攻击的神经网络模型进行再训练,完成指定数量的训练周期;步骤5:在神经网络模型部署后,利用触发器生成网络在输入样本中注入后门触发器,激活网络模型中的后门,使模型做出指定错误决策。2.根据权利要求1所述的一种基于目标特征增强生成网络的神经网络后门攻击方法,其特征在于,所述步骤2具体为:步骤2
‑
1:创建后门触发器生成网络,该生成网络为卷积层组成的编码解码网络,其中解码器部分有L层卷积;步骤2
‑
2:将训练数据集中属于目标攻击类别的样本输入要攻击的神经网络模型,计算神经网络模型每一层中的特征图均值,得到每一层的目标类特征均值;步骤2
‑
3:固定要攻击的神经网络模型参数权重,在数据集上对后门触发器生成网络训练一个周期,具体训练过程为:步骤2
‑3‑
1:向要攻击的神经网络模型输入一个批次的样本,输出预测置信度结果,与样本相应标签求损失,损失反向传播求得模型每一层的特征图对于预测结果影响程度的样本梯度矩阵;步骤2
‑3‑
2:计算相同层级的目标类特征均值与样本梯度矩阵的元素相乘结果,得到每一层的样本自适应的目标类别均值;步骤2
‑3‑
3:将步骤2
‑3‑
1中该批次的样本输入触发器生成网络,经过生成网络的编码部分,得到样本编码;步骤2
‑3‑
4:选择共L层的样本自适应的目标类别均值,将样本自适应的目标类特征均值与样本编码共同输入生成网络的解码部分,输出样本噪声;步骤2
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。