【技术实现步骤摘要】
一种适应样本的双阶增强干净标签神经网络后门植入方法
[0001]本专利技术涉及一种适应样本的双阶增强干净标签神经网络后门植入方法,属于深度学习安全
技术介绍
[0002]深度神经网络(DNNs)在人类可能无法很好完成的关键任务中显示了它的强大力量,如图像分类、语音识别、物体检测、自动驾驶、自然语言处理等。
[0003]但是,深度神经网络的力量主要是基于巨量的训练数据以及计算资源而获得的。由于从头训练深度神经网络的成本巨大,个人或小公司可能会倾向于使用第三方的服务或使用公共资源,如预训练的模型和数据集,为他们的特定任务重新训练模型。
[0004]后门植入攻击是在这种情况下产生的一种重大安全威胁:攻击者在模型训练期间向其中植入一个隐藏的后门;在推理阶段,模型将在干净的测试数据集上正常运行。但是,当攻击者激活隐藏的后门时,模型会表现出恶意行为,其将输出攻击者所设定的输出结果。
[0005]在模型中植入隐藏的后门主要是通过在向训练数据投毒。当模型在这些中毒的图像上训练时,后门功能将被编码到受害者模型 ...
【技术保护点】
【技术特征摘要】
1.一种适应样本的双阶增强干净标签神经网络后门植入方法,其特征在于:具体包括以下内容:步骤1:设计用于促进干净标签条件下后门攻击的针对具体图像自适应生成的两阶段触发器Δ;具体设计过程如下:步骤1.1:根据植入过程中促进后门模型学习触发器特征的需求,设计触发器
′
Δ可以达成以下效果:f(Θ,x
′
t
)≠y
t
,x
′
t
=x
t
+Δ,其中x
t
为靶向类图像;x
′
t
为修改靶向类图像获得的投毒图像;y
t
指代靶向标签,此时该靶向标签即为该图像对应的正确标签;干净模型对x
t
的预测结果产生偏离,即:f(Θ,x
′
t
)≠y
t
;步骤1.2:根据攻击过程中加强触发器攻击效果需求,设计触发器Δ可以达成以下效果:f
b
(Θ,x
′
nt
)=y
t
,x
′
nt
=x
nt
+Δ,其中x
nt
为非靶向类图像;x
′
nt
为修改非靶向类图像获得的投毒图像;y
t
指代靶向标签;后门模型对x
′
nt
的预测结果趋于靶向标签,即:f
b
(Θ,x
′
nt
)=y
t
;步骤2:设计和训练用于生成步骤1中所述触发器的触发器生成器G;所述G通过以下过程获得:步骤2.1:选定触发器生成器G的结构为U
‑
Net结构的自动编码器;步骤2.2:为了获得具有步骤1.1、1.2中所述效果的触发器,设计了三个损失函数来约束和训练触发器生成器G;其中,三个损失函数分别为:步骤2.2.1:靶向类损失其中m为靶向类图像的个数,为交叉熵函数,x
′
(t,i)
为第i个添加了靶向类触发器Δ
t
的投毒图像,y
llc
为模型f(Θ,x
【专利技术属性】
技术研发人员:李元章,武上博,罗楠,王亚杰,谭毓安,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。