基于反学习和注意力的深度学习后门攻击防御方法技术

技术编号：42320171 阅读：15 留言：0更新日期：2024-08-14 16:01

本发明专利技术公开一种基于反学习和注意力的深度学习后门攻击防御方法，主要解决现有后门防御方案中防御效率低下、防御面单一以及对防御者能力要求较高的问题。本发明专利技术的实现步骤为生成反学习模型；通过相似度函数，检测后门样本；计算后门样本的注意力值；根据注意力值，净化后门样本；将净化后的样本输入到模型中，得到其正确分类。本发明专利技术通过反学习模型，扩大了后门样本和干净样本的差异性，使得后门样本检测更加精确；并且，本发明专利技术通过后门样本注意力特征，提出一种后门样本净化方案，使得防御体系更加完善。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于语言处理，更进一步涉及数据安全中的一种基于反学习和注意力的深度学习后门攻击防御方法。本专利技术可用于防御通过向模型的训练数据中添加触发器并改变样本原标签为目标类别，从而使模型在遇到不包含触发器的输入时表现正常，防御表层空间的后门攻击。

技术介绍

1、工程实践中深度学习技术的迅猛发展为各种应用场景提供了更强大的数据处理和分析能力，但是，深度模型容易遭受后门攻击的威胁。后门攻击通过向深度学习模型注入特定触发器，使模型在处理正常数据时表现正常，但在触发后门条件时展现攻击性行为。对于后门攻击，可以通过检测并净化后门样本来进行防御。当前的后门样本检测方案会采取一定措施来尽可能地增大后门样本及干净样本之间的差异，从而方便样本检测；或者通过逆向工程来生成后门触发器，从而检测后门样本。目前防御效果最好的技术方案有以下两种：rap：该方法建立在中毒样本和干净样本之间对抗性稳健性的差距之上。它首先构造了一个基于单词的鲁棒性感知扰动，扰动将显著降低干净样本的输出概率，但影响具有后门触发器的中毒样本，最后，计算扰动前后输出概率的变化并对样本进行区...

【技术保护点】

1.一种基于反学习和注意力的深度学习后门攻击防御方法，其特征在于，训练反学习模型用于后门样本检测，计算后门样本的注意力值用于净化后门样本；该分类方法的步骤包括以下：

2.根据权利要求1所述的基于反学习和注意力图的深度学习后门攻击防御方法，其特征在于，步骤1中所述干净样本是指包含至少2种模型任务类别，每种类别至少有20个句子组成的正确标签的样本集，每个句子组成一个样本，每个句子的单词总数不超过512个。

3.根据权利要求1所述的基于反学习和注意力图的深度学习后门攻击防御方法，其特征在于，步骤1中所述后门模型指的是被攻击者注入恶意后门的模型，该后门模型在处理干净样本时...

【技术特征摘要】

3.根据权利要求1所述的基于反学习和注意力图的深度学习后门攻击防御方法，其特征在于，步骤1中所述后门模型指的是被攻击者注入恶意后门的模型，该后门模型在处理干净样本时与未注入后门的干净模型性能保持一致，但是在处理含触发器的后门样本时，则始终将后门样本分类为攻击者的目标标签。

4.根据权利要求1所述的基于反学习和注意力图的深度学习后门攻击防御方法，其特征在于，步骤1中所述反学习的步骤如下：

...

【专利技术属性】
技术研发人员：张勇，吕锡香，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人