【技术实现步骤摘要】
基于重参数化隐写触发器的标签一致型后门攻击方法
[0001]本专利技术涉及模型安全
,具体而言,尤其涉及基于重参数化隐写触发器的标签一致型后门攻击方法。
技术介绍
[0002]随着人工智能技术的不断发展,深度学习的研究成果在自然语言处理、图像识别、信号处理、工业控制等领域得到了广泛的应用。在大模型时代,深度神经网络模型的训练成本越来越高,开发者更趋向与使用公开的预训练模型和数据集对模型进行微调优化,而非从零开始训练模型。但是,公开的预训练模型和数据集通常由不受信任的第三方发布,其安全性难以保证,存在被植入后门的可能性。一旦被植入后门,基于深度神经网络技术的各类应用就会面临较大的安全风险,造成用户的隐私泄露、财产损失、甚至危及人身安全等后果。
[0003]Badnets是DNN后门攻击领域的开山之作,该论文中描述了后门攻击的基本步骤,首先为正常数据添加触发器作为毒化数据,然后为毒化数据打上攻击者指定的目标标签,最后将这些毒化数据与正常数据一起训练,Badnets成功地在MNIST等数据集上进行了攻击。Blend论 ...
【技术保护点】
【技术特征摘要】
1.一种基于重参数化隐写触发器的标签一致型后门攻击方法,其特征在于,包括:数据集包括多张原始图像,所述原始图像包括类别标签,所述原始图像包括特定图像和干净图像,所述干净图像包括第一干净图像和第二干净图像,所述特定图像的所述类别标签为目标标签;对所述特定图像添加后门触发器,将所述特定图像转化为毒化图像,所述毒化图像包括第一毒化图像和第二毒化图像;所述第一毒化图像和所述第一干净图像构成训练集,所述第二毒化图像和所述第二干净图像构成测试集;采用所述训练集训练基线模型得到后门模型,完成后门攻击;当所述后门模型输入所述第二干净图像时,所述后门模型输出所述第二干净图像对应的所述类别标签;当所述后门输入所述第二毒化图像时,所述后门模型将所述第二毒化图像对应的所述类别标签转化为预设标签并输出。2.根据权利要求1所述的基于重参数化隐写触发器的标签一致型后门攻击方法,其特征在于,所述对所述特定图像添加后门触发器,将所述特定图像转化为毒化图像,包括:采用编码器网络对所述特定图像提取第一特征向量;基于Gumbel
‑
Softmax对所述第一特征向量进行重参数化采样得到第二特征向量;将所述第二特征向量输入解码器网络,所述解码器网络根据所述第二特征向量得到重建图像;采用预训练的编码器
‑
解码器网络将所述后门触发器的字符信息和所述重建图像重新编码后形成所述毒化图像。3.根据权利要求2所述的基于重参数化隐写触发器的标签一致型后门攻击方法,其特征在于,所述基于Gumbel
‑
Softmax对所述第一特征向量进行重参数化采样得到第二特征向量,包括:利用所述Gumbel
‑
Softmax实现多项式分布的采样,包括:所述Gumbel
‑
Softmax生成与所述第一特征向量维度相同的耿贝尔分布随机数,将所述耿贝尔分布随机数对应维度加入所述第一特征向量;采用Softmax函数对添加所述耿贝尔分布随机数的所述第一特征向量经过argmax函数的输出结果实现平滑分布得到所述第二特征向量。4.根据权利要求3所述的基于重参数化隐写触发器的标签一致型后门攻击方法,其特征在于,所述采用Softmax函数对添加所述耿贝尔分布随机数的所述第一特征向量经过argmax函数的输出结果实现平滑分布得到所述第二特征向量,包括:通过调节温度系数控制平滑分布程度,按照以下方式进行计算:其中,f
τ
(X)为所述第一特征向量的第l项的Gumbel
‑
Softmax输出结果,为所述第一特征向量,x
k
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。