一种基于可解释性神经网络的后门防御方法和装置制造方法及图纸

技术编号：40308828 阅读：10 留言：0更新日期：2024-02-07 20:52

本发明专利技术公开了一种基于可解释性神经网络的后门防御方法和装置，包括：正向推理：将图像样本输入至可解释性神经网络中进行正向推理，得到最后一层卷积层中神经元的激活值；检测后门：依据待测试图像在最后一层卷积层的神经元激活值与其他神经元激活值是否正交来检测是否存在后门攻击；缓解后门：检测存在后门攻击时更改后门攻击对应的神经元参数，以缓解后门；缓解干扰：采用集成算法对后门缓解的可解释性神经网络进行多次训练得到多个特征提取器；防御预测：将待检测图像输入至多个特征提取器，综合多个特征提取器提取的特征进行图像分类以实现后门防御，提升图像分类的准确性，提升分类结果的安全性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息安全，具体涉及一种基于可解释性神经网络的后门防御方法和装置。

技术介绍

1、基于深度神经网络(dnn)的图像分类应用到医疗、交通以及金融等领域中。但是深度神经网络的预测标签容易受到对抗性攻击。如果对于给定的图像，有可能生成一个感知上无法区分的图像，该图像具有与神经网络相同的预测标签，但给出了截然不同的解释。脆弱性限制了对解释的信任程度和学习程度，这将引发一个重要的新安全问题。

2、典型的后门攻击打算在训练过程中在dnn中嵌入隐藏后门，以便被攻击的dnn在良性样本上表现正常，而如果隐藏后门被攻击者指定的触发模式激活，它们的预测将被恶意且持续地改变。这些攻击可能会在关键任务应用程序中导致严重安全后果。

3、后门攻击已经被运用于可解释性神经网络，然而目前并没有被专门用于可解释性神经网络的后门防御方法，现存的大多数防御方法则缺少针对性。

4、目前可解释性神经网络的相关防御技术大多集中在提高模型的鲁棒性，比如修改模型输入数据,包括在训练阶段修改训练数据以及在测试阶段修改输入的样本数据；修改网络结构，比如添加更多的网络层数，改变损失函数或激活函数等方法；添加外部模块作为原有网络模型的附加插件，提升网络的鲁棒性。这些方法虽然对一些普通的对抗攻击可以起到不错的效果，但是并没有对防御后门攻击的针对性，无法清除后门或触发器，只会使得攻击成功率变低，并无法彻底清除隐患，这对于需要高精确度的医疗，交通，金融领域的图像分类是致命的。

5、现有逆向工程可以实现后门攻击防御，在受感染模型中，它

6、然而因为针对可解释性神经网络的后门攻击不止会攻击预测标签，也会攻击特征图，修改了大量模型参数，所以在通过诸如逆向工程等方法进行后门防御的时候，后门可能会被消除，但是模型的鲁棒性和可解释性会大大下降，同时逆向工程并不能解决更隐蔽的后门攻击方式，比如通过特征空间进行的后门攻击，因此目前还未有针对性的基于可解释性神经网络的后门防御技术可以解决可解释性神经网络在图像分类时的被攻击导致分类错误的技术问题。

技术实现思路

1、鉴于上述，本专利技术的目的是提供一种基于可解释性神经网络的后门防御方法和装置，实现对可解释性神经网络在图像分类过程中后门攻击的防御，提升图像分类的准确性，提升分类结果的安全性。

2、为实现上述专利技术目的，实施例提供的一种基于可解释性神经网络的后门防御方法，包括以下步骤：

3、正向推理：将图像样本输入至可解释性神经网络中进行正向推理，得到最后一层卷积层中神经元的激活值；

4、检测后门：依据待测试图像在最后一层卷积层的神经元激活值与其他神经元激活值是否正交来检测是否存在后门攻击；

5、缓解后门：检测存在后门攻击时更改后门攻击对应的神经元参数，以缓解后门；

6、缓解干扰：采用集成算法对后门缓解的可解释性神经网络进行多次训练得到多个特征提取器；

7、防御预测：将待检测图像输入至多个特征提取器，综合多个特征提取器提取的特征进行图像分类以实现后门防御。

8、优选地，所述将图像样本输入至可解释性神经网络中进行正向推理，得到每层卷积层中神经元的激活值，包括：

9、遍历所有标签，假定其中一个标签为后门攻击干扰标签，对其他标签的图像样本添加扰动，使其经过可解释性神经网络的预测标签变为干扰标签，每进行一次实验时，记录最后一个卷积层里的神经元激活值。

10、优选地所述根据待测试图像在最后一层卷积层的神经元激活值与其他神经元激活值是否正交来检测是否存在后门，包括：

11、正交计算过程：如果最后一层卷积层的一神经元激活值与另一神经元激活值的点乘为0，则表示两神经元正交，如果一神经元与其他神经元都正交，且记录这一神经元；

12、对添加扰动的不同标签的图像样本重复正向推理和正交计算过程，统计每次均能与其他神经元正交的神经元，如果存在这样的神经元，则表示存在后门攻击，且神经元为对应后门攻击的神经元。

13、优选地，所述方法还包括：

14、如果不存在每次均能与其他神经元正交的神经元，则换一个标签作为假设的后门干扰标签，重复正向推理和正交计算过程，如果所有的假设后门干扰标签经检测都没有存在与其他神经元均正交的神经元，则说明不存在后门攻击。

15、优选地，所述更改后门攻击对应的神经元参数，包括：

16、将后门攻击对应的神经元参数全部改成参数的相反数。

17、优选地，所述采用集成算法对后门缓解的可解释性神经网络进行多次训练得到多个特征提取器，包括：

18、训练过程：针对有n个图像样本的图像样本集，进行n次有放回的随机图像样本抽取形成一个图像样本集，利用图像样本集对可解释神经网络进行训练，获得一个特征提取器；

19、重复上述训练过程m次，得到m个特征提取器。

20、优选地，所述综合多特征提取器提取的特征进行图像分类以实现后门防御，包括：

21、将多个特征提取器提取的特征中相同位置的特征值进行求和后再取平均，获得的平均特征值为缓解干扰后的特征值，基于缓解干扰后的特征值进行图像分类得到分类结果。

22、为实现上述专利技术目的，实施例提供了一种基于可解释性神经网络的后门防御装置，包括：

23、正向推理模块，用于将图像样本输入至可解释性神经网络中进行正向推理，得到最后一层卷积层中神经元的激活值；

24、检测后门模块，用于依据待测试图像在最后一层卷积层的神经元激活值与其他神经元激活值是否正交来检测是否存在后门攻击；

25、缓解后门模块，用于检测存在后门攻击时更改后门攻击对应的神经元参数，以缓解后门；

26、缓解干扰模块，用于采用集成算法对后门缓解的可解释性神经网络进行多次训练得到多个特征提取器；

27、防御预测模块，用于将待检测图像输入至多个特征提取器，综合多个特征提取器提取的特征进行图像分类以实现后门防御。

28、与现有技术相比，本专利技术具有的有益效果至少包括：

29、通过缓解后门和缓解干扰步骤，可以有效缓解可解释性神经网络在图像分类过程中的后门攻击，对于改变预测标签的后门攻击，和改变特征图的后门攻击，均可进行有效防御和缓解。通过使用此方法可以增加可解释性神经网络在进行图像分类的过程中的安全性和可信度，保护使用者的数据隐私与安全。

本文档来自技高网...

【技术保护点】

1.一种基于可解释性神经网络的后门防御方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于可解释性神经网络的后门防御方法，其特征在于，所述将图像样本输入至可解释性神经网络中进行正向推理，得到每层卷积层中神经元的激活值，包括：

3.根据权利要求2所述的基于可解释性神经网络的后门防御方法，其特征在于，所述根据待测试图像在最后一层卷积层的神经元激活值与其他神经元激活值是否正交来检测是否存在后门，包括：

4.根据权利要求3所述的基于可解释性神经网络的后门防御方法，其特征在于，还包括：

5.根据权利要求1所述的基于可解释性神经网络的后门防御方法，其特征在于，所述更改后门攻击对应的神经元参数，包括：

6.根据权利要求1所述的基于可解释性神经网络的后门防御方法，其特征在于，所述采用集成算法对后门缓解的可解释性神经网络进行多次训练得到多个特征提取器，包括：

7.根据权利要求1所述的基于可解释性神经网络的后门防御方法，其特征在于，所述综合多特征提取器提取的特征进行图像分类以实现后门防御，包括：

8.一种基

...

【技术特征摘要】

1.一种基于可解释性神经网络的后门防御方法，其特征在于，包括以下步骤：

4.根据权利要求3所述的基于可解释性神经网络的后门防御方法，其特征在于，还包括...

【专利技术属性】
技术研发人员：范晓兵，秦湛，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人