基于逆向工程与遗忘的深度学习后门攻击防御方法技术

技术编号:39187409 阅读:11 留言:0更新日期:2023-10-27 08:34
本发明专利技术涉及一种基于逆向工程和遗忘的深度学习后门攻击防御方法,属于人工智能安全领域。本发明专利技术首先根据现有的干净小样本集使用优化方法进行数据集扩展;然后针对目标模型训练集中的每一个类别标签进行假设性反演,得到各个标签相应的候选触发器,通过离群检测算法找到具有离群L1范数的候选触发器,此候选触发器被防御者认定为攻击者的后门触发器,其相应的标签为攻击者的目标标签;最后构造遗忘数据集,将目标模型在此遗忘数据集上进行微调,根据微调的效果选择合适的微调模型作为最终的目标模型。本发明专利技术很好的解决了进行后门遗忘时,因为数据集样本不足造成的防御性能下降的问题,同时不会影响干净样本的预测准确率。同时不会影响干净样本的预测准确率。同时不会影响干净样本的预测准确率。

【技术实现步骤摘要】
基于逆向工程与遗忘的深度学习后门攻击防御方法


[0001]本专利技术涉及人工智能安全领域,尤其涉及一种基于逆向工程与遗忘的深度学习后门的防御方法。

技术介绍

[0002]人工智能领域近年来获得长足的发展,越来越多的智能设备开始普及,这些设备中许多都依赖于深度学习算法进行决策和控制。但是这些算法也面临许多安全风险,其中最突出的安全风险之一就是后门攻击(Backdoor Attacks)。后门攻击是一种隐蔽的攻击方式,攻击者通过植入后门使得深度学习模型在执行某些特定任务时出现预期外的行为,被损害的后门模型将会把带有后门触发器(Backdoor Trigger)的样本误分类成攻击者指定的目标类,同时不会影响正常样本的分类。攻击者通常通过修改数据集或植入恶意代码来实现后门攻击,这些后门对深度学习模型的安全性造成了严重威胁,因为它们可以在未经授权的情况下对模型进行远程控制。
[0003]研究发现,攻击者构造的后门样本会与某些被污染的神经元相关联起来,这种关联导致无论后门触发器出现在任意样本上,模型都会将这些受污染的样本误分类成攻击者指定的目标类。但是,防御者可以通过在精心构造的数据集上的一次微调来遗忘后门触发器与目标标签的关联,从而达到防御后门的目的。
[0004]在现有技术中,防御者都假设可以访问训练集中的干净样本,利用这些干净样本构造用于遗忘的重训练样本。这种假设在现实中是受限制的,实际场景下,防御者并不能区分训练数据集中的干净数据子集和受污染的数据子集。实际上,防御者能够获取一个小的干净数据集,并不能获取训练数据集的干净子集,在这种限制下,针对后门的遗忘效果将会变差。

技术实现思路

[0005]本专利技术所要解决的问题是:提供一种基于逆向工程和遗忘的深度学习后门防御方法,用于解决实际场景中防御者能力受限制的条件下进行遗忘后门时效果变差的问题。
[0006]本专利技术采用如下技术方案:
[0007]一种基于逆向工程和遗忘的深度学习后门防御方法,具体的步骤如下:
[0008]步骤1、构建扩展数据集:基于防御者已有的干净小样本集进行扩展,对所述样本集中每个样本添加随机的高斯噪声,添加有噪声的干净样本在现有目标模型上进行优化得到扩展的相邻数据集,将所述相邻数据集与干净小样本集随机混合,得到第一扩展数据集;
[0009]步骤2、构建后门触发器:使用逆向工程,对模型训练集中的每个类标签进行反演,获得针对每个标签的候选的后门触发器,并判断模型是否有后门,如果有,得到候选触发器集以及相应的L1范数,用离群算法找到具有L1范数的离群候选触发器,所述候选触发器作为攻击者的后门触发器,其相应的标签为攻击者的后门目标标签;
[0010]步骤3、训练输出模型:将上述后门触发器以比例注入到第一扩展数据集中,不修
改被注入样本对应的真实标签,构成第二扩展训练集,在所述第二扩展训练集上对目标神经网络模型进行若干次迭代微调,得到输出模型。
[0011]具体的,步骤1中,对所述样本集中每个样本添加随机的高斯噪声,所述噪声不能偏离干净小样本集的数据分布,具体为,对干净小样本集上某个位置是否添加噪声做出优化,生成状态矩阵,所述状态矩阵中,使用元素0表示保留相应位置处的原始干净数值,用1表示高斯噪声替换原始干净数值,按照所述矩阵的结果对所述样本添加噪声得到相邻数据集。
[0012]进一步的,步骤1中,第一扩展数据集为:X
e
,表示如下:
[0013]X
e
={(x
i
,y
i
)|x
i
∈R
d
,y
i
∈y}
ꢀꢀꢀ
(1)
[0014]其中,(x
i
,y
i
)表示第一扩展数据集中的索引为i的样本标签元组,x
i
表示索引为i的样本,y
i
表示样本x
i
的标签,R
d
表示样本维度,y表示标签的范围;
[0015]干净小样本集为:X
v
,相邻数据集为:X
neighbor
,所述数据集之间关系表示如下:
[0016]X
e
=X
v
∪X
neighbor
ꢀꢀꢀ
(2)
[0017][0018]其中,g是邻居数据集生成函数,是索引为i的干净小样本集中的样本,是对应的标签,是索引为i的相邻数据集中的样本,是对应的标签。
[0019]具体的,步骤2中,后门触发器T
t
满足以下公式:
[0020][0021]其中,i,t分别表示模型实际分类标签和后门目标标签,是使任意其他类别良性样本从真实预测到后门攻击目标标签预测所需要的最小的扰动,

为后门触发器,|

t
|是后门触发器的大小;是取任意样本被模型预测为任意非目标类样本所需的扰动中扰动最小的一类。
[0022]具体的,步骤3中,将上述后门触发器以比例注入到第一扩展数据集中,不修改被注入样本对应的真实标签,构成第二扩展训练集,包括如下子步骤:
[0023]步骤3.1、以概率α选择第一扩展样本集X
e
中的样本,组成待遗忘样本集X
p
,剩下的1

α的第一扩展样本集为X
c

[0024]步骤3.2、将公式(5)中所得的后门触发器

注入到所述X
p
中的样本上,但是不修改被注入样本的真实标签,得到遗忘样本集X
u
,表示为:
[0025][0026]函数P为后门触发器注入函数,定义如下:
[0027]P(x,m,Δ)=x
′ꢀꢀꢀ
(6)
[0028]x

i,j,c
=(1

m
i,j
)
·
x
i,j,c
+m
i,j
·
Δ
i,j,c
ꢀꢀꢀ
(7)
[0029]其中,x

表示注入后门后的样本,i,j,c表示样本矩阵的高、宽和颜色通道;m是一个二维的数值范围为0到1的矩阵,在m中i,j位置处其值为0表示样本原始位置的颜色并没有被改变,在m中i,j位置处其值为1表示原始样本相应位置的值完全被后门触发器相应位置的值覆盖,在m中i,j位置处其值为0,1之间的数表示混合原始数值与触发器数值。
[0030]进一步的,步骤3中,所述迭代微调,使用含有后门的深度学习图像分类模型F的微调构建公式,表示如下:
[0031][0032]其中,X
t
表示第二扩展数据集,L表示目标损失函数,具体为交叉熵损失函数,θ表示需要微调的模型的参数,优化器选择结合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于逆向工程与遗忘的深度学习后门攻击防御方法,其特征在于,包括以下步骤:步骤1、构建扩展数据集:基于防御者已有的干净小样本集进行扩展,对所述样本集中每个样本添加随机的高斯噪声,添加有噪声的干净样本在现有目标模型上进行优化得到扩展的相邻数据集,将所述相邻数据集与干净小样本集随机混合,得到第一扩展数据集;步骤2、构建后门触发器:使用逆向工程,对模型训练集中的每个类标签进行反演,获得针对每个标签的候选的后门触发器,并判断模型是否有后门,如果有,得到候选触发器集以及相应的L1范数,用离群算法找到具有L1范数的离群候选触发器,所述候选触发器作为攻击者的后门触发器,其相应的标签为攻击者的后门目标标签;步骤3、训练输出模型:将上述后门触发器以比例注入到第一扩展数据集中,不修改被注入样本对应的真实标签,构成第二扩展训练集,在所述第二扩展训练集上对目标神经网络模型进行若干次迭代微调,得到输出模型。2.根据权利要求1所述的一种基于逆向工程与遗忘的深度学习后门攻击防御方法,其特征在于,步骤1中,对所述样本集中每个样本添加随机的高斯噪声,所述噪声不能偏离干净小样本集的数据分布,具体为,对干净小样本集上某个位置是否添加噪声做出优化,生成状态矩阵,所述状态矩阵中,使用元素0表示保留相应位置处的原始干净数值,用1表示高斯噪声替换原始干净数值,按照所述矩阵结果对所述样本添加噪声得到相邻数据集。3.根据权利要求2所述的一种基于逆向工程与遗忘的深度学习后门攻击防御方法,其特征在于,步骤1中,第一扩展数据集为:X
e
,表示如下:其中,(x
i
,y
i
)表示第一扩展数据集中的索引为i的样本标签元组,x
i
表示索引为i的样本,y
i
表示样本x
i
的标签,R
d
表示样本维度,表示标签的范围;干净小样本集为:X
v
,相邻数据集为:x
neighbor
,所述数据集之间关系表示如下:X
e
=X
v
∪X
neighbor
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中,g是邻居数据集生成函数,是索引为i的干净小样本集中的样本,是对应的标签,是索引为i的相邻数据集中的样本,是对应的标签。4.根据权利要求3所述的一种基于逆向工程与遗忘的深度学习后门攻击防御方法,其特征在于,步骤2中,后门触发器

t
满足以下公式:其中,i,t分别表示模型实际分类标签和后门目标标签,是使任意其他类别良性样本从真实预测到后门...

【专利技术属性】
技术研发人员:方黎明赵仁学王梦欣
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1