一种计算机视觉神经网络模型后门攻击清除方法和系统技术方案

技术编号：40516359 阅读：20 留言：0更新日期：2024-03-01 13:33

本发明专利技术公开了一种计算机视觉神经网络模型后门攻击清除方法和系统，应用于图像识别领域，属于神经网络模型安全保护技术领域。将待处理的视觉神经网络模型分为特征提取器部分和分类器部分；对于视觉神经网络模型的每个预测类别，利用视觉神经网络模型的特征提取器部分生成多个特征表示；使用生成的特征表示构建数据集，将每个特征表示作为一个样本，样本标签为其生成时所对应的预测类别；利用构建的数据集对视觉神经网络模型的分类器部分进行微调，以清除视觉神经网络模型的后门攻击。本发明专利技术自动生成特征表示以构建微调数据集，填补了当前没有非数据依赖的神经网络模型后门清除技术的空白。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及神经网络模型安全保护，尤其涉及一种计算机视觉神经网络模型后门攻击清除方法和系统。

技术介绍

1、针对深度神经网络模型的后门攻击是人工智能面临的重大安全威胁之一。被注入后门的神经网络模型对正常的输入样本表现正常，即输出正确的预测类别。然而，如果输入样本包含特定的触发器(trigger)形式，被注入后门的神经网络模型将表现出攻击者预设的异常行为，例如将该样本分类到指定的某个目标类别。

2、尽管已有多种后门清除方法，这些已有方法都建立在同一假设的基础上，即防御者一方可以访问一组不具有触发器的已打标验证样本，或者假设防御者可以接触到带有触发器的在线访问样本，这些假设在一些现实场景中可能不成立，例如：如果防御者是一个模型共享平台的维护者，那么该防御者在检查平台上的模型是否有后门的时候很可能无法接触到任何辅助样本；或者如果防御者是水平联邦学习中的服务器端，则该防御者无法接触到任何属于联邦学习参与方的本地样本。

技术实现思路

1、针对目前计算机视觉神经网络模型后门清除方法依赖辅助数据、无法在无数据依赖的情形下运作的现状，本专利技术提供一种计算机视觉神经网络模型后门清除方法和系统，可在无数据依赖的情形下对计算机视觉神经网络模型进行后门清除。

2、本专利技术提供了如下技术方案：

3、第一方面，本专利技术提出一种计算机视觉神经网络模型后门攻击清除方法，应用于图像识别领域，包括：

4、将待处理的视觉神经网络模型分为特征提取器部分和分类器部分；

5、对于视觉神经网络模型的每个预测类别，利用视觉神经网络模型的特征提取器部分生成多个特征表示；

6、使用生成的特征表示构建数据集，将每个特征表示作为一个样本，样本标签为其生成时所对应的预测类别；

7、利用构建的数据集对视觉神经网络模型的分类器部分进行微调，以清除视觉神经网络模型的后门攻击。

8、进一步地，将视觉神经网络模型最后的若干个全连接层作为分类器部分，其余部分作为特征提取器部分。

9、进一步地，利用特征提取器部分生成多个特征表示的生成策略为最大化每个预测类别在分类器部分的分类置信度。

10、进一步地，生成策略表示为：

11、

12、

13、其中，ce为交叉熵损失函数，nc为视觉神经网络模型的预测类别数目，λl1为控制l1正则化的参数，mcls(.)表示视觉神经网络模型的分类器部分，c表示预测类别的标签，irc表示预测类别c对应的特征表示，表示预测类别c对应的特征表示的第i维的值，nd表示特征表示的维度，||.||表示l1范数。

14、进一步地，对于视觉神经网络模型的每个预测类别生成的特征表示的数量相同。

15、进一步地，对视觉神经网络模型的分类器部分进行微调时，训练目标为：

16、

17、其中，x,y表示生成的特征表示样本及其标签，dir表示由生成的特征表示构建得到的数据集，ce为交叉熵损失函数，mc′ls表示微调后的分类器部分，λl2为控制l2正则化的参数，||.||2表示l2范数。

18、进一步地，所述的后门攻击包括使用像素块触发器、图像滤镜触发器、图像水印触发器、使用特定自然特征作为触发器、以特定多种正常特征混合作为触发器的一种或多种形式。

19、第二方面，本专利技术提出一种计算机视觉神经网络模型后门攻击清除系统，应用于图像识别领域，包括：

20、模型分割模块，其用于将待处理的视觉神经网络模型分为特征提取器部分和分类器部分；

21、特征表示生成模块，其用于对于视觉神经网络模型的每个预测类别，利用视觉神经网络模型的特征提取器部分生成多个特征表示；

22、数据集构建模块，其用于使用生成的特征表示构建数据集，将每个特征表示作为一个样本，样本标签为其生成时所对应的预测类别；

23、后门清除模块，其用于利用构建的数据集对视觉神经网络模型的分类器部分进行微调，以清除视觉神经网络模型的后门攻击。

24、进一步地，所述的特征表示生成模块的生成策略为最大化每个预测类别在分类器部分的分类置信度。

25、进一步地，所述的模型分割模块中，将视觉神经网络模型最后的若干个全连接层作为分类器部分，其余部分作为特征提取器部分。

26、与现有技术相比，本专利技术的有益效果在于：可以在不需要依赖任何辅助数据的前提下，根据模型参数逆向生成模型对于每个类别的特征表示，并根据特征表示及其对应标签微调模型的末端若干层，进而在基本维持模型正常功能的前提下清除已经植入模型的后门。本专利技术自动生成特征表示以构建微调数据集，填补了当前没有非数据依赖的神经网络模型后门清除技术的空白。

本文档来自技高网...

【技术保护点】

1.一种计算机视觉神经网络模型后门攻击清除方法，其特征在于，应用于图像识别领域，包括：

2.根据权利要求1所述的计算机视觉神经网络模型后门攻击清除方法，其特征在于，将视觉神经网络模型最后的若干个全连接层作为分类器部分，其余部分作为特征提取器部分。

3.根据权利要求1所述的计算机视觉神经网络模型后门攻击清除方法，其特征在于，利用特征提取器部分生成多个特征表示的生成策略为最大化每个预测类别在分类器部分的分类置信度。

4.根据权利要求3所述的计算机视觉神经网络模型后门攻击清除方法，其特征在于，生成策略表示为：

5.根据权利要求l所述的计算机视觉神经网络模型后门攻击清除方法，其特征在于，对于视觉神经网络模型的每个预测类别生成的特征表示的数量相同。

6.根据权利要求l所述的计算机视觉神经网络模型后门攻击清除方法，其特征在于，对视觉神经网络模型的分类器部分进行微调时，训练目标为：

7.根据权利要求l所述的计算机视觉神经网络模型后门攻击清除方法，其特征在于，所述的后门攻击包括使用像素块触发器、图像滤镜触发器、图像水印触发器

8.一种计算机视觉神经网络模型后门攻击清除系统，其特征在于，应用于图像识别领域，包括：

9.根据权利要求8所述的计算机视觉神经网络模型后门攻击清除系统，其特征在于，所述的特征表示生成模块的生成策略为最大化每个预测类别在分类器部分的分类置信度。

10.根据权利要求8所述的计算机视觉神经网络模型后门攻击清除系统，其特征在于，所述的模型分割模块中，将视觉神经网络模型最后的若干个全连接层作为分类器部分，其余部分作为特征提取器部分。

...

【技术特征摘要】

1.一种计算机视觉神经网络模型后门攻击清除方法，其特征在于，应用于图像识别领域，包括：

4.根据权利要求3所述的计算机视觉神经网络模型后门攻击清除方法，其特征在于，生成策略表示为：

5.根据权利要求l所述的计算机视觉神经网络模型后门攻击清除方法，其特征在于，对于视觉神经网络模型的每个预测类别生成的特征表示的数量相同。

6.根据权利要求l所述的计算机视觉神经网络模型后门攻击清除方法...

【专利技术属性】
技术研发人员：纪守领，付冲，蒲誉文，潘家雨，伍一鸣，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人