【技术实现步骤摘要】
本专利技术属于语言处理,更进一步涉及数据安全中的一种基于反学习和注意力的深度学习后门攻击防御方法。本专利技术可用于防御通过向模型的训练数据中添加触发器并改变样本原标签为目标类别,从而使模型在遇到不包含触发器的输入时表现正常,防御表层空间的后门攻击。
技术介绍
1、工程实践中深度学习技术的迅猛发展为各种应用场景提供了更强大的数据处理和分析能力,但是,深度模型容易遭受后门攻击的威胁。后门攻击通过向深度学习模型注入特定触发器,使模型在处理正常数据时表现正常,但在触发后门条件时展现攻击性行为。对于后门攻击,可以通过检测并净化后门样本来进行防御。当前的后门样本检测方案会采取一定措施来尽可能地增大后门样本及干净样本之间的差异,从而方便样本检测;或者通过逆向工程来生成后门触发器,从而检测后门样本。目前防御效果最好的技术方案有以下两种:rap:该方法建立在中毒样本和干净样本之间对抗性稳健性的差距之上。它首先构造了一个基于单词的鲁棒性感知扰动,扰动将显著降低干净样本的输出概率,但影响具有后门触发器的中毒样本,最后,计算扰动前后输出概率的变化并对样本进行区
...【技术保护点】
1.一种基于反学习和注意力的深度学习后门攻击防御方法,其特征在于,训练反学习模型用于后门样本检测,计算后门样本的注意力值用于净化后门样本;该分类方法的步骤包括以下:
2.根据权利要求1所述的基于反学习和注意力图的深度学习后门攻击防御方法,其特征在于,步骤1中所述干净样本是指包含至少2种模型任务类别,每种类别至少有20个句子组成的正确标签的样本集,每个句子组成一个样本,每个句子的单词总数不超过512个。
3.根据权利要求1所述的基于反学习和注意力图的深度学习后门攻击防御方法,其特征在于,步骤1中所述后门模型指的是被攻击者注入恶意后门的模型,该后门
...【技术特征摘要】
1.一种基于反学习和注意力的深度学习后门攻击防御方法,其特征在于,训练反学习模型用于后门样本检测,计算后门样本的注意力值用于净化后门样本;该分类方法的步骤包括以下:
2.根据权利要求1所述的基于反学习和注意力图的深度学习后门攻击防御方法,其特征在于,步骤1中所述干净样本是指包含至少2种模型任务类别,每种类别至少有20个句子组成的正确标签的样本集,每个句子组成一个样本,每个句子的单词总数不超过512个。
3.根据权利要求1所述的基于反学习和注意力图的深度学习后门攻击防御方法,其特征在于,步骤1中所述后门模型指的是被攻击者注入恶意后门的模型,该后门模型在处理干净样本时与未注入后门的干净模型性能保持一致,但是在处理含触发器的后门样本时,则始终将后门样本分类为攻击者的目标标签。
4.根据权利要求1所述的基于反学习和注意力图的深度学习后门攻击防御方法,其特征在于,步骤1中所述反学习的步骤如下:
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。