一种基于特征空间频域分布的模型后门攻击方法技术

技术编号：41191820 阅读：2 留言：0更新日期：2024-05-07 22:21

本发明专利技术公开一种基于特征空间频域分布的模型后门攻击方法，属于人工智能安全技术领域；一种基于特征空间频域分布的模型后门攻击方法为：首先逆向生成触发输入，接着利用代码注入的方式将包含分布检测器和木马寄存器的木马结构注入预训练模型中；然后将触发输入输入预训练模型中，来激活所述木马结构；通过将触发分布嵌入模型的特征空间，并利用特征图频域分布的鲁棒性，使模型后门能够抵御模型权重修改攻击，从根本上提高了模型后门的鲁棒性；此外，通过引入木马寄存器结构，可以将木马特征图隐蔽地注入模型中，替换正常特征图而不被察觉；这种隐蔽性使得后门攻击更难被检测到，并增加了攻击的成功率和持久性，且不会影响模型的原始性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能安全，具体涉及一种基于特征空间频域分布的模型后门攻击方法。

技术介绍

1、深度神经网络（dnn）在自动驾驶、语音识别和人脸识别等各种任务中取得了出色的性能，目前已经广泛应用于日常生活中。但近些年不断有研究发现，神经网络中存在一定的安全隐患，如污染攻击、对抗性攻击和后门攻击，这可能对依赖于dnn的安全关键应用产生致命后果。例如，攻击者可以通过在交通标志上添加特定触发器来欺骗自动驾驶模型，这可能导致致命事故。针对各种dnn模型的木马攻击引起了广泛关注，已经成为dnn供应链安全的严重威胁。

2、现有的后门攻击主要通过数据污染或注入木马结构来实现。在前者中，攻击者会通过污染训练数据（即插入带有触发器的样本）来诱使模型学习触发器和后门行为之间的关联。在后者中，攻击者会操纵预训练的源代码，将后门结构注入模型中。尽管后门攻击有所进展，但现有的后门攻击仍面临许多技术挑战。首先，后门注入依赖于重新训练的过程，dnn的复杂性导致注入后门的巨大开销，而且后门注入会损害模型的准确性。其次，基于污染的后门攻击不适用于参数被冻结的已部署模型。此外，现有的后门防御方法主要关注基于污染的攻击。例如，通过探测触发器与恶意输出之间的关联，或者受害模型中的异常特征。因此，探索具有威胁性且实际可行的后门攻击并设置有效的防御措施对于dnn供应链安全具有重要的意义。

技术实现思路

1、针对现有技术的不足，本专利技术的目的在于提供一种基于特征空间频域分布的模型后门攻击方法，解决了现有技术中的问题。

2、本专利技术的目的可以通过以下技术方案实现：

3、一种基于特征空间频域分布的模型后门攻击方法，包括以下步骤：

4、利用在预训练模型的特征空间中修改部分特征值的频域分布来逆向生成触发输入；

5、利用代码注入的方式将包含分布检测器和木马寄存器的木马结构注入预训练模型的卷积层中；

6、将触发输入输入预训练模型中，来激活所述木马结构。

7、进一步地，生成触发输入的步骤包括：

8、s11，将干净输入图片输入预训练模型中，经过第一个卷积层后，输出特征图；

9、s12，从特征图中选取维特征图，每一张特征图中选取个特征值，每张特征图中的个特征值的位置保证一致；

10、s13，将个特征值作为载体特征值，并重组成一张载体特征图；

11、s14，使用dct变换将载体特征图从空域转换成频域，得到频域分布；

12、s15，使用预定义的触发分布替换频域分布；

13、s16，使用逆dct变换将触发分布从频域转换为空域，得到触发特征图；

14、s17，将触发特征图中的个载体特征值根据其在原始特征图中的位置进行特征替换，得到新的特征图，再结合第一个卷积层的权重，逆向得到触发输入。

15、进一步地，所述特征图与输入图片之间的关系：

16、

17、其中，为第一个卷积层的权重。

18、进一步地，所述dct变换公式为：

19、

20、其中：

21、

22、式中，为原始图像的空间域像素点处的像素值，为变换后系数矩阵中的元素，表示不同频率分量的权值，为归一化系数。

23、进一步地，逆向得到所述触发输入的表达式为：

24、。

25、进一步地，所述木马结构注入预训练模型的步骤包括：

26、s21，确定目标标签，从数据集中选择目标标签对应的输入图片；

27、s22，将输入图片输入预训练模型，获取到对应的第一个卷积层的特征图，并将作为木马特征图存储在木马寄存器中；

28、s23，将预定义的触发分布作为密钥设置分布检测器；

29、s24，选择预训练模型中需要注入木马结构的第一个卷积层，使用代码注入的方式将分布检测器和木马寄存器注入至第一个卷积层后。

30、进一步地，所述触发输入能从预训练模型特征图中提取到预定义的触发分布；所述分布检测器检测提取到的分布是否为关键分布，若符合关键分布，则激活木马寄存器，反之则保持木马寄存器为睡眠状态；

31、当所述木马寄存器被激活，则会执行特征图替换操作，使得第一个卷积层的特征图样本被完全替换为恶意特征。

32、一种基于特征空间频域分布的模型后门攻击系统，包括：

33、触发输入生成模块：利用在预训练模型的特征空间中修改部分特征值的频域分布来逆向生成触发输入；

34、木马结构注入模块：利用代码注入的方式将包含分布检测器和木马寄存器的木马结构注入预训练模型中；

35、以及，木马结构激活模块：将触发输入输入预训练模型中，来激活所述木马结构。

36、一种计算机存储介质，存储有可读程序，当程序运行时，能够执行上述基于特征空间频域分布的模型后门攻击方法。

37、一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

38、所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述基于特征空间频域分布的模型后门攻击方法对应的操作。

39、本专利技术的有益效果：

40、1、本专利技术提出的一种基于特征空间频域分布的模型后门攻击方法，通过将后门触发模式嵌入模型的特征空间，并利用特征图频域分布的鲁棒性，使模型后门能够抵御模型权重修改攻击，从根本上提高了模型后门的鲁棒性。

41、2、本专利技术的方法还增强了后门的隐蔽性，通过引入木马寄存器结构，可以将木马特征图隐蔽地注入模型中，替换正常特征图而不被察觉；这种隐蔽性使得后门攻击更难被检测到，并增加了攻击的成功率和持久性；同时，不会影响模型的原始性能。

42、3、本专利技术的后门注入方式具有较小的计算开销，通过特征空间中样本的频域分布来逆向出的触发输入，具有触发木马结构的功能，不需要对触发输入进行二次训练来使得模型学习触发输入的特征。因此，该方法可以使用较小的计算开销注入后门，并保持模型在正常任务上的准确性和效果。

43、4、本专利技术的方法能够抵御现有的后门防御方法，现有的后门防御方法主要关注基于污染的攻击，而本专利技术的方法通过特征图频域分布的嵌入方式，能够绕过这些防御方法的检测，为构建更安全、可靠的机器学习模型提供了新的防御思路，有助于保护关键应用的安全，并推动对抗性研究的发展。

本文档来自技高网...

【技术保护点】

1.一种基于特征空间频域分布的模型后门攻击方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于特征空间频域分布的模型后门攻击方法，其特征在于，生成触发输入的步骤包括：

3.根据权利要求2所述的一种基于特征空间频域分布的模型后门攻击方法，其特征在于，所述特征图与输入图片之间的关系：

4.根据权利要求2所述的一种基于特征空间频域分布的模型后门攻击方法，其特征在于，所述DCT变换公式为：

5.根据权利要求2所述的一种基于特征空间频域分布的模型后门攻击方法，其特征在于，逆向得到所述触发输入的表达式为：

6.根据权利要求2所述的一种基于特征空间频域分布的模型后门攻击方法，其特征在于，所述木马结构注入预训练模型的步骤包括：

7.根据权利要求6所述的一种基于特征空间频域分布的模型后门攻击方法，其特征在于，所述触发输入能从预训练模型特征图中提取到预定义的触发分布；所述分布检测器检测提取到的分布是否为关键分布，若符合关键分布，则激活木马寄存器，反之则保持木马寄存器为睡眠状态；

8.一种基于特征空间频域

9.一种计算机存储介质，存储有可读程序，其特征在于，当程序运行时，能够执行权利要求1-7任一项所述的基于特征空间频域分布的模型后门攻击方法。

10.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

...

【技术特征摘要】

1.一种基于特征空间频域分布的模型后门攻击方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于特征空间频域分布的模型后门攻击方法，其特征在于，生成触发输入的步骤包括：

3.根据权利要求2所述的一种基于特征空间频域分布的模型后门攻击方法，其特征在于，所述特征图与输入图片之间的关系：

4.根据权利要求2所述的一种基于特征空间频域分布的模型后门攻击方法，其特征在于，所述dct变换公式为：

5.根据权利要求2所述的一种基于特征空间频域分布的模型后门攻击方法，其特征在于，逆向得到所述触发输入的表达式为：

6.根据权利要求2所述的一种基于特征空间频域分布的模型后门攻击方法，其特征在于，所述木马结构注...

【专利技术属性】
技术研发人员：张成娟，陈先意，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人