当前位置: 首页 > 专利查询>武汉大学专利>正文

一种静态权重引导的深度神经网络后门检测方法及系统技术方案

技术编号:33850735 阅读:29 留言:0更新日期:2022-06-18 10:37
本发明专利技术公开了一种静态权重引导的深度神经网络后门检测方法及系统,首先对预训练神经网络模型进行静态权重分析,得到后门攻击的可疑目标标签和受害标签,组成目标

【技术实现步骤摘要】
一种静态权重引导的深度神经网络后门检测方法及系统


[0001]本专利技术属于人工智能和网络安全领域,涉及一种深度神经网络后门检测方法,具体涉及一种静态权重引导的深度神经网络后门检测方法。

技术介绍

[0002]近年来,深度神经网络在诸多领域取得了不错的表现,例如计算机视觉、恶意软件检测、自动驾驶等。由于构建和部署表现良好的神经网络模型需要大量的专家知识和计算开销,用户一般选择外包云计算或者下载预训练模型。
[0003]然而,现有研究已经证明神经网络很容易受到后门攻击,这导致从第三方获取的预训练模型可能存在严重的安全风险。在后门攻击中,攻击者定义一个后门触发器,并指定攻击的目标标签和受害标签。受害标签可能是除目标标签外的所有标签,也可能是攻击者特定的几个标签。攻击者在训练过程中为来自受害标签的数据加上触发器,并标记为目标标签,向模型植入后门。用户使用时,含后门的模型对于干净输入仍能正确分类,然而一旦受害标签的输入中含有攻击者定义的触发器,就会被分到攻击者指定的后门攻击目标标签。
[0004]对神经网络后门攻击的防御一直是研究热点。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种静态权重引导的深度神经网络后门检测方法,其特征在于,包括以下步骤:步骤1:对深度神经网络进行静态权重分析,得到后门攻击的可疑目标标签和受害标签,组成目标

受害标签对;步骤1的具体实现包括以下子步骤:步骤1.1:提取深度神经网络最后一层与输出标签相连的所有权重,假设深度神经网络共有n个输出标签,将与每一个标签相连接的权重组织成向量,得到n个权重向量w1…
w
n
;步骤1.2:对每一个权重向量,计算它和其他所有权重向量的差异度,将差异度由高到低排序,取差异度高的前k
d
个权重向量对应的目标标签集合D;对每一个权重向量,计算它包含所有权重的和,将权重和由高到低排序,取权重和高的前k
s
个权重向量对应的目标标签集合S;将D和S取并集得到最终的可疑目标标签集合T;步骤1.3:将步骤1.2得到的最高差异度和次高差异度相减,所得到的差大于阈值θ,则认为受害标签是模型中的所有标签;否则,对T中的每一个可疑目标标签t,计算它和其他权重向量的相似度,将相似度由高到低排序,取相似度高的前k
v
个标签,作为可疑受害标签V
t
;步骤1.4:将得到的可疑目标标签集合T和T中每一个目标标签t对应的受害标签V
t
,组成目标

受害标签对集合;步骤2:利用步骤1得到的可疑目标标签和受害标签,和干净图像样本,进行触发器逆向工程,得到逆向触发器;当所述触发器逆向工程为像素补丁型触发器逆向工程时,则判断得到的像素补丁型逆向触发器是否满足成功率和触发器大小预设条件,若满足预设条件,则执行下述步骤3;否则,输出检测结果为待检测深度神经网络不含有像素补丁型后门;当所述触发器逆向工程为图像滤镜型触发器逆向工程时,则判断得到的图像滤镜型逆向触发器是否满足成功率预设条件,若满足预设条件,则输出检测结果为待检测深度神经网络含有图像滤镜型后门;否则,输出检测结果为待检测深度神经网络不含有图像滤镜型后门;步骤3:分析步骤2得到的像素补丁型逆向触发器的形状属性,以及激活待检测深度神经网络内部神经元的分布,输出最终检测结果。2.根据权利要求1所述的静态权重引导的深度神经网络后门检测方法,其特征在于:步骤1.2中,所述权重向量差异度,是采用平均余弦相似度计算标签l的权重向量w
l
的差异度Divergence(l),其定义为:Divergence(l),其定义为:3.根据权利要求1所述的静态权重引导的深度神经网络后门检测方法,其特征在于:步骤1.3中,所述权重向量相似度,是采用余弦相似度计算权重向量之间的相似度,对T中的可疑目标标签t,其权重向量为w
t
,则标签i的权重向量w
i
与w
t
的相似度定义为:4.根据权利要求1所述的静态权重引导的深度神经网络后门检测方法,其特征在于:步骤2中,在触发器逆向工程中,对于图像滤镜型触发器的逆向工程,包括定义图像滤镜型触
发器对图像进行变换的一般形式和定义优化任务求解图像滤镜型触发器;所述定义图像滤镜型触发器对图像进行变换的一般形式,包括:对维度为3
×
H
×
W的三通道彩色图片,拼接两个值为全1的通道,即透明度通道和偏置通道,得到维度为5
×
H
×
W的矩阵;其中,H和W分别表示高和宽;将滤镜触发器定义为一个大小为4
×
5的二维矩阵,与维度为5
×
H
×
W的矩阵相乘,得到4
×
H
×
W的矩阵;将4
×
H
×
W的矩阵视为RGBA格式的图片,最后一个通道为透明度通道;利用RGBA格式转RGB格式的方法,将4
×
H
×
W的矩阵还原为3
×
H
×
W的三通道彩色图片,最终得到经过滤镜触发器变换的图片;所述定义优化任务求解图像滤镜型触发器,优化任务包括:添加滤镜触发器后的图片能被待检测神经网络模型错误分类到目标标签,和添加滤镜触发器后的图片与原图片结构相似性尽量高。5.根据权利要求1所述的静态权重引导的深度神经网络后门检测方法,其特征在于:步骤2中,在触发器逆向工程中,对于像素补丁型触发器的逆向工程,其优化任务为:受害标签图片加上同一个触发器后,能被神经网络模型错判为目标标签,且触发器的像素数量尽量少。6.根据权利要求1所述的静态权重引导的深度神经网络后门检测方法,其特征在于,对于图像滤镜型触发器的逆向工程,步骤2的...

【专利技术属性】
技术研发人员:赵磊李文欣王琦刘佩
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1