基于逆向工程与遗忘的深度学习后门攻击防御方法技术

技术编号：39187409 阅读：11 留言：0更新日期：2023-10-27 08:34

本发明专利技术涉及一种基于逆向工程和遗忘的深度学习后门攻击防御方法，属于人工智能安全领域。本发明专利技术首先根据现有的干净小样本集使用优化方法进行数据集扩展；然后针对目标模型训练集中的每一个类别标签进行假设性反演，得到各个标签相应的候选触发器，通过离群检测算法找到具有离群L1范数的候选触发器，此候选触发器被防御者认定为攻击者的后门触发器，其相应的标签为攻击者的目标标签；最后构造遗忘数据集，将目标模型在此遗忘数据集上进行微调，根据微调的效果选择合适的微调模型作为最终的目标模型。本发明专利技术很好的解决了进行后门遗忘时，因为数据集样本不足造成的防御性能下降的问题，同时不会影响干净样本的预测准确率。同时不会影响干净样本的预测准确率。同时不会影响干净样本的预测准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于逆向工程与遗忘的深度学习后门攻击防御方法

[0001]本专利技术涉及人工智能安全领域，尤其涉及一种基于逆向工程与遗忘的深度学习后门的防御方法。

技术介绍

[0002]人工智能领域近年来获得长足的发展，越来越多的智能设备开始普及，这些设备中许多都依赖于深度学习算法进行决策和控制。但是这些算法也面临许多安全风险，其中最突出的安全风险之一就是后门攻击(Backdoor Attacks)。后门攻击是一种隐蔽的攻击方式，攻击者通过植入后门使得深度学习模型在执行某些特定任务时出现预期外的行为，被损害的后门模型将会把带有后门触发器(Backdoor Trigger)的样本误分类成攻击者指定的目标类，同时不会影响正常样本的分类。攻击者通常通过修改数据集或植入恶意代码来实现后门攻击，这些后门对深度学习模型的安全性造成了严重威胁，因为它们可以在未经授权的情况下对模型进行远程控制。
[0003]研究发现，攻击者构造的后门样本会与某些被污染的神经元相关联起来，这种关联导致无论后门触发器出现在任意样本上，模型都会将这些受污染的样本误分类成攻击者指定的目标类。但是，防御者可以通过在精心构造的数据集上的一次微调来遗忘后门触发器与目标标签的关联，从而达到防御后门的目的。
[0004]在现有技术中，防御者都假设可以访问训练集中的干净样本，利用这些干净样本构造用于遗忘的重训练样本。这种假设在现实中是受限制的，实际场景下，防御者并不能区分训练数据集中的干净数据子集和受污染的数据子集。实际上，防御者能够获取一个小的干净数据集，并不能获取...

【技术保护点】

【技术特征摘要】
1.一种基于逆向工程与遗忘的深度学习后门攻击防御方法，其特征在于，包括以下步骤：步骤1、构建扩展数据集：基于防御者已有的干净小样本集进行扩展，对所述样本集中每个样本添加随机的高斯噪声，添加有噪声的干净样本在现有目标模型上进行优化得到扩展的相邻数据集，将所述相邻数据集与干净小样本集随机混合，得到第一扩展数据集；步骤2、构建后门触发器：使用逆向工程，对模型训练集中的每个类标签进行反演，获得针对每个标签的候选的后门触发器，并判断模型是否有后门，如果有，得到候选触发器集以及相应的L1范数，用离群算法找到具有L1范数的离群候选触发器，所述候选触发器作为攻击者的后门触发器，其相应的标签为攻击者的后门目标标签；步骤3、训练输出模型：将上述后门触发器以比例注入到第一扩展数据集中，不修改被注入样本对应的真实标签，构成第二扩展训练集，在所述第二扩展训练集上对目标神经网络模型进行若干次迭代微调，得到输出模型。2.根据权利要求1所述的一种基于逆向工程与遗忘的深度学习后门攻击防御方法，其特征在于，步骤1中，对所述样本集中每个样本添加随机的高斯噪声，所述噪声不能偏离干净小样本集的数据分布，具体为，对干净小样本集上某个位置是否添加噪声做出优化，生成状态矩阵，所述状态矩阵中，使用元素0表示保留相应位置处的原始干净数值，用1表示高斯噪声替换原始干净数值，按照所述矩阵结果对所述样本添加噪声得到相邻数据集。3.根据权利要求2所述的一种基于逆向工程与遗忘的深度学习后门攻击防御方法，其特征在于，步骤1中，第一扩展数据集为：X
e
，表示如下:其中，(x
i
,y
i
)表示第一扩展数据集中的索引为i的样本标签元组，x
i
表示索引为i的样本，y
i
表示样本x
i
的标签，R
d
表示样本维度，表示标签的范围；干净小样本集为：X
v
，相邻数据集为：x
neighbor
，所述数据集之间关系表示如下：X
e
＝X
v
∪X
neighbor
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中，g是邻居数据集生成函数，是索引为i的干净小样本集中的样本,是对应的标签，是索引为i的相邻数据集中的样本,是对应的标签。4.根据权利要求3所述的一种基于逆向工程与遗忘的深度学习后门攻击防御方法，其特征在于，步骤2中，后门触发器
△
t
满足以下公式：其中，i,t分别表示模型实际分类标签和后门目标标签，是使任意其他类别良性样本从真实预测到后门...

【专利技术属性】
技术研发人员：方黎明，赵仁学，王梦欣，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人