基于可解释性的神经网络后门样本过滤方法技术

技术编号:39712662 阅读:9 留言:0更新日期:2023-12-17 23:21
本发明专利技术公开了一种基于可解释性的神经网络后门样本过滤方法,属于深度学习安全技术领域

【技术实现步骤摘要】
基于可解释性的神经网络后门样本过滤方法


[0001]本专利技术涉及一种神经网络后门样本过滤方法,属于深度学习安全
,特别涉及一种基于可解释性的神经网络后门样本过滤方法


技术介绍

[0002]深度学习是一种广泛应用于各个领域的优秀机器学习方法,包括图像分类

目标跟踪和自动驾驶等

卷积神经网络
(Convolutional Neural Network

CNN)
则是深度学习中最常见的网络结构类型,其采用卷积层

池化层和全连接层的组合模式,可以更高效地处理大尺寸

高维度的数据

[0003]近年来,神经网络在各个领域都取得了令人瞩目的成果,其中最重要的原因之一就是其强大的学习能力

然而,为了获得高质量的神经网络模型,通常需要大量的训练数据来训练模型,即神经网络是一种数据饥饿模型

这对于一般用户而言,往往是难以满足的条件

因此,许多用户会选择使用未知来源的数据集来训练模型,以期望获得更好的训练效果

[0004]然而研究表明,类似于传统计算机领域,神经网络也存在着后门安全问题

在传统计算机领域中,后门植入攻击是指攻击者可以植入一段恶意代码到操作系统或应用软件中,并设置一个触发器
(
如特定字符串
)。
当用户的操作满足触发器的条件时,后门将被激活,从而给予恶意攻击者更高的权限以破坏系统

[0005]在深度学习与神经网络这个新领域中,后门攻击利用其神经网络的数据饥饿特性,通过污染训练数据,给神经网络安全带来了严峻挑战

具体来说,攻击者可以向训练数据中添加后门触发器,并修改其分类标签,从而导致模型被植入后门,攻击者可以通过触发器操纵模型做出非预期的错误分类结果

[0006]神经网络的数据饥饿特性,大大提升了后门攻击的隐蔽性

例如,
Open Images

Amazon Products
数据集分别包含约
900
万和
2.33
亿个样本,这些样本是从各种潜在的不安全来源中收集的

而攻击者仅需要注入少量后门样本,即可实现有效的后门攻击

在这种场景下,对训练样本进行全面的人工审查通常是不可行的

[0007]因此,本专利提出了一种基于可解释性的神经网络后门样本过滤方法,可以在无需额外干净对照样本的条件下,实现高效

准确的后门样本过滤


技术实现思路

[0008]本专利技术提供了一种基于可解释性的神经网络后门样本过滤方法,该方法在无需额外干净对照样本

无需额外训练后门检测模型的条件下,实现了一种兼顾高效性和准确性的后门样本过滤方法

[0009]为实现上述目的,本专利技术的技术方案为:
[0010]本专利技术提出的一种基于可解释性的神经网络后门样本过滤方法,包括以下步骤:
[0011]S1
:将待检测样本
x
i
输入模型进行前向传播,提取待检测样本最高卷积层特征图
A
i
并获得待检测样本预测结果向量
y
i

[0012]S2
:将待检测样本预测结果向量
y
i
进行反向传播,得到待检测样本最高卷积层特征图
A
i
对于目标类别
c
的梯度
[0013]S3
:将待检测样本最高卷积层特征图
A
i
以梯度为权重进行加权求和,得到目标类别
c
的类激活图
[0014]S4
:选定待提取关键决策区域激活值阈值
α
;结合类激活图及阈值
α
,提取待检测样本关键决策区域
p
i

[0015]S5
:对关键决策区域
p
i
进行擦除修复,得到修复样本
x
i
'

[0016]S6
:将修复样本
x
i
'
输入模型获取修复样本预测结果向量
y
i
'
,得到擦除前后预测类别
[0017]S7
:根据擦除前后预测类别对比,实现后门样本过滤

[0018]进一步,
S1
步骤中:将待检测样本
x
i
输入模型进行前向传播,提取待检测样本最高卷积层特征图
A
i
并获得待检测样本预测结果向量
y
i
;本专利技术提取待检测样本
x
i
的最高卷积层特征图
A
i
,利用其进行后续的可解释性操作

此外,当样本
x
i
通过神经网络的各层之后,最终会获得一个预测结果向量,其中包含了模型对该样本的各个预测类别的概率值

[0019]进一步,
S2
步骤中:将待检测样本预测结果向量
y
i
进行反向传播,得到待检测样本最高卷积层特征图
A
i
对于目标类别
c
的梯度为了计算各通道特征图的语义特征信息的重要性程度,需要计算待检测样本最高卷积层特征图
A
i
对于目标类别
c
的梯度即待检测样本预测结果向量
y
i
对待检测样本最高卷积层特征图
A
i
求偏导

具体计算公式如下:
[0020][0021]其中:
[0022]·
代表模型针对目标类别
c
的预测分数;
[0023]·
k
代表待检测样本最高卷积层特征图
A
i
的通道编号;
[0024]·
代表待检测样本最高卷积层特征图
A
i
在第
k
通道位置
(m,n)
的值;
[0025]·
Z
代表待检测样本最高卷积层特征图
A
i
在任一通道的像素数量,等价于
m
·
n

[0026]·
代表待检测样本最高卷积层特征图
A
i
对于目标类别
c
在第
k
通道的梯度

[0027]由此本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于可解释性的神经网络后门样本过滤方法,其特征在于,包括以下步骤:
S1
:将待检测样本
x
i
输入模型进行前向传播,提取待检测样本最高卷积层特征图
A
i
并获得待检测样本预测结果向量
y
i

S2
:将待检测样本预测结果向量
y
i
进行反向传播,得到待检测样本最高卷积层特征图
A
i
对于目标类别
c
的梯度
S3
:将待检测样本最高卷积层特征图
A
i
以梯度为权重进行加权求和,得到目标类别
c
的类激活图
S4
:选定待提取关键决策区域激活值阈值
α
,结合类激活图及阈值
α
,提取待检测样本关键决策区域
p
i

S5
:对关键决策区域
p
i
进行擦除修复,得到修复样本
x
i
'

S6
:将修复样本
x
i
'
输入模型获取修复样本预测结果向量
y
i
'
,以及擦除前后预测类别
S7
:根据擦除前后预测类别对比,实现后门样本过滤
。2.
如权利要求1所述的基于可解释性的神经网络后门样本过滤方法,其特征在于,
S1
步骤在深度学习中,模型的前向传播是指将待检测样本输入模型进行计算,以进行特征提取并获得待检测样本预测结果向量,这个过程中,模型会对待检测样本
x
i
进行一系列的卷积

池化

激活操作,从而逐层提取输入样本的特征,在这个过程中,待检测样本最高卷积层特征图
A
i
是指模型中最后一层卷积层的输出结果,它包含了数据的最高层次特征信息,具体来说,高卷积层提取的特征图比低卷积层提取的特征抽象程度更高,语义信息更丰富,更能够保留原始的语义信息,所以,本发明提取待检测样本
x
i
的待检测样本最高卷积层特征图
A
i
,利用其进行后续的可解释性操作,此外,当待检测样本
x
i
通过神经网络的各层之后,最终会获得一个待检测样本预测结果向量,其中包含了模型对该样本的各个预测类别的概率值
。3.
如权利要求2所述的基于可解释性的神经网络后门样本过滤方法,其特征在于,
S2
步骤中的反向传播是深度学习中的一种优化算法,它可以通过计算梯度来更新模型参数,从而使模型更好地拟合训练数据,待检测样本最高卷积层特征图
A
i
中包含多通道特征图,任一通道特征图都包含相对应的语义特征信息,但是各通道特征图的语义特征信息对于决策结果的重要性各不相等,因此,为了计算各通道特征图的语义特征信息的重要性程度,需要计算待检测样本最高卷积层特征图
A
i
对于目标类别
c
的梯度即待检测样本预测结果向量
y
i
对待检测样本最高卷积层特征图
A
i
求偏导,具体计算公式如下:其中:
·
代表模型针对目标类别
c
的预测分数;
·
k
代表待检测样本最高卷积层特征图
A
i
的通道编号;
·
代表待检测样本最高卷积层特征图
A
i
在第
k
通道位置
(m,n)
的值;
·
Z
代表待检测样本最高卷积层特征图
A
i
在任一通道的像素数量,等价于
m
·
n

·
代表待检测样本最高卷积层特征图
A
i
对于目标类别
c
在第
k
通道的梯度;由此,可以得到各通道特征图的语义特征信息对于决策结果的重要性程度
。4.
如权利要求3所述的基于可解释性的神经网络后门样本过滤方法,其特征在于,
S3
步骤中:待检测样本最高卷积层特征图
A
i
为模型对待检测样本
x
i
提取的特征,包含了对模型解释的语义信息,梯度对应各通道特征图在决策过程中的重要性程度,因此,将待检测样本最高卷积层各通道特征图与各通道计算梯度值加权求和,即可得到待检测样本
x
i
的类激活图像具体计算公式如下:其中:
·
k
代表待检测样本最高卷积层特征图
A
i
的通道编号;
·
代表待检测样本最高卷积层第
k
通道的特征图;
·
代表待检测样本最高卷积层特征图
A
i
...

【专利技术属性】
技术研发人员:王昊宸谭毓安李元章张全新刘璐武上博
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1