一种遗忘事件中基于类激活特征的后门攻击方法技术

技术编号：40438566 阅读：5 留言：0更新日期：2024-02-22 23:02

本发明专利技术属于网络信息安全领域，具体地说，是一种遗忘事件中基于类激活特征的后门攻击方法，包括：获取图像数据、通过遗忘事件选取后门数据与干净数据、训练自编码器为后门数据生成触发器、使用类激活算法为触发器选取后门位置、添加感知损失训练后门模型、使用后门模型进行后门攻击；该方法克服了现有后门攻击中的触发器易于发现，攻击成功率低等问题，使用该攻击方法可以提高攻击效率，加强后门隐蔽性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于网络信息安全领域，具体地说，是一种遗忘事件中基于类激活特征的后门攻击方法。

技术介绍

1、后门攻击(backdoor learning)是一种面向dnn训练过程完整性的威胁，主要通过毒害模型的训练数据实现后门的植入，使dnn模型在测试存在后门数据时，产生定向的错误。后门攻击的目标是在深度神经网络或其他机器学习模型中植入一种特殊的“后门”行为，以便在特定条件下触发模型的特定行为或产生错误的输出。这种攻击的主要目的是干扰模型的正常预测行为，从而威胁系统的安全性和可信度。随着神经网络的迅猛发展，后门攻击的研究在面对多变复杂的实际应用场景中具有较强的稳定性，同时能够抵御复杂的环境条件和非正常的恶意干扰。

2、灾难性遗忘（catastrophic forgetting）描述的是在一个任务上训练出来的模型，如果在一个新任务上进行训练，就会大大降低原任务上的泛化性能，即之前的知识被严重遗忘了。遗忘样本则是受到灾难性遗忘现象的启发而提出的，即在同一个任务的训练过程中，也可能会有遗忘现象，一个样本可能在训练过程中反复地学了忘、忘了学。遗忘事件结合多种机器学习技术和数据处理技术，以实现更高效的后门攻击成功率。

3、cam（class activation mapping）类激活方法可以显示模型在训练过程中，权重或中心在何处、如何转移，分类模型是根据哪一部分的特征进行判别的。简而言之，就是模仿人类识别物体的过程，随着模型的迭代，找到相关任务的关键部位。cam使得弱监督学习发展成为可能，可以慢慢减少对人工标注的依赖

4、可学习感知图像块相似度（lpips）也称为“感知损失”，用于度量两张图像之间的差别。该度量标准学习生成图像到真实标签的反向映射，强制生成器学习从假图像中重构真实图像的反向映射，并优先处理它们之间的感知相似度。lpips比传统方法更符合人类的感知情况，其值越低表示两张图像越相似，反之，则差异越大。

5、现有的技术一是基于恶意补丁的后门攻击方法：首先为图像数据生成一系列补丁型触发器，选择图像数据中左上角或右上角的位置作为触发器位置，从而生成后门样本；构建分类器，将后门样本与干净样本放入分类器中进行训练，生成后门模型；最后对新采集的图像数据进行分类预测，进而将带有补丁型触发器的样本被恶意分类为预先定义的目标标签。该方法产生的后门样本易于被人工检查数据所发现，受到触发器位置等因素的影响，也会导致分类结果不准确。

6、现有的技术二是基于图像扭曲的后门攻击方法：该方法通过使用一个小而平滑的扭曲场来生成后门图像，使后门图像变得自然，很难从真实的例子中区分出来。这种后门攻击方法虽然不需要在原始图像上添加补丁型触发器，逃避了小部分人工检查数据，但攻击成功率有待提高。该方法可能会由于原始图像数据的复杂性，导致分析结果不准确。

7、现有的技术三是基于干净标签的后门攻击方法：该方法通过生成模型去生成一些带有噪声目标类的样本，选取一部分数据添加触发器，但它们的图像内容和标签是一致的，进而做到了图像数据与标签完全符合。但基于干净标签的后门攻击方法与标准的后门攻击相比，后门攻击准确率有待提升。

8、现有的后门攻击方法通常存在三种问题：一是在后门攻击中对于后门样本的选取效率不高，每次随机选取数据作为后门样本进行攻击，而不是去选取对后门注入贡献更大的后门样本；二是后门攻击中触发器形状固定，现有的后门攻击种类繁多，但大多数触发器都是基于静态的补丁或扰动所选取的，这类触发器虽然会使后门模型产生很高的攻击成功率，但也很容易被人工检查数据所检测出来；三是后门触发器的位置随机，目前多数触发器位置都是随机放置，忽略了图像原本特征对后门攻击的重要性，这就导致后门攻击的准确率不高。

技术实现思路

1、为了解决现阶段在深度学习领域研究中针对后门攻击现有方法的优化问题，本专利技术披露了一种遗忘事件中基于类激活特征的后门攻击方法，通过遗忘事件选取后门样本从而提高后门样本的选取效率，利用改进的自编码器生成动态触发器形状，再通过类激活特征选取最适合的触发器位置，最后训练后门模型，从而使后门模型达到更好的性能。

2、本专利技术采用的具体技术方案如下：

3、一种遗忘事件中基于类激活特征的后门攻击方法，具体包括以下步骤：

4、步骤一，利用遗忘事件选取后门样本。通过遗忘事件计算每个样本的遗忘事件数量，对遗忘样本按照遗忘事件数量进行从大到小的排序，遗忘事件数量较大的样本对于后门注入的贡献更大。每次的训练过程中选取排序靠前的样本作为后门样本，选取一部分样本作为干净样本，组成后门数据集进行后续后门攻击。

5、步骤二，改进的自编码器为后门样本生成触发器形状。在步骤一选取后门样本的基础上对后门样本进行触发器形状的生成，本专利技术不去使用固定的统一触发器形状，而是通过将图像数据作为输入条件，采用改进的自编码器生成动态的触发器形状。触发器生成器模型用于将输入的随机噪声或其他形式的输入转化为图像，通过一系列卷积和上采样操作来实现这一转化过程。返回生成的图像样本，通过适当的标准化和处理，以确保与数据集的特征相匹配。

6、步骤三，选取适合图像数据集的预训练模型对其进行分类。在步骤二生成后门触发器形状的基础上通过类激活特征选取触发器的放置位置，使用针对所选取图像数据集的预训练模型对数据集进行分类。在分类的过程中对模型的全连接层使用类激活特征方法生成热力图，对该热力图最重要的部位设置掩码，用于放置触发器。

7、步骤四，使用类激活生成分类结果的热力图，进而选取触发器位置。基于步骤二和步骤三生成的触发器形状和位置，通过后门样本生成算法生成后门样本。修改后门样本的标签为预先定义的目标标签，将干净样本与后门样本一同放进干净模型中进行训练。

8、步骤五，生成后门样本，添加感知损失训练后门模型。在训练过程中添加lpips感知损失。每次生成后门样本时，计算干净样本与后门样本之间的感知损失，从而使后门样本更加接近于干净样本，最终生成后门模型。

9、步骤六，进行后门模块检测模块。从网络安全公开数据集中选取测试数据集，为测试数据集中小部分数据添加步骤二中的后门触发器，放入步骤五生成的后门模型中进行检测。带有后门触发器的样本应被错误的分类为预定义标签，而干净样本被正确分类。

10、本专利技术的进一步改进，在上述步骤一中，首先，获取预处理的图像数据集，选用神经网络与深度学习中常见图像分类数据集cifar10，该数据集共有10个类别，60000个样本，每一张都是32*32像素的rgb图像，按批次计算所选图像数据集中遗忘事件的数量，对每个样本计算在相邻两个训练周期中准确率的变化，放入diiff数组中，统计每个样本的遗忘事件数量，放入forget_events数组中，遗忘事件数量表示每个样本在相邻两个周期内准确性下降（本文档来自技高网...

【技术保护点】

1.一种遗忘事件中基于类激活特征的后门攻击方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的遗忘事件中基于类激活特征的后门攻击方法，其特征在于，在所述步骤一中，数据集选用神经网络与深度学习中常见图像分类数据集CIFAR10，该数据集共有10个类别，60000个样本，每一张都是32*32像素的RGB图像，按批次计算所选图像数据集中遗忘事件的数量，对每个样本计算在相邻两个训练周期中准确率的变化，放入diiff数组中，统计每个样本的遗忘事件数量，放入forget_events数组中，根据遗忘事件数量对样本索引进行排序，从遗忘事件最多的样本开始排序，从遗忘事件的索引数组中选择一部分遗忘事件较多的中毒样本保留，保留的数量受到参数opt.alpha控制，从数据集中的其他样本中随机选择一些样本，补充到中毒样本中，将新选择的中毒样本的索引与之前选择的中毒样本的索引合并，形成最终的中毒样本。

3.根据权利要求2所述的遗忘事件中基于类激活特征的后门攻击方法，其特征在于，所述步骤二通过步骤一选取后门样本，将后门样本传递给生成器网络netG中，生成器netG首先定义初始化

4.根据权利要求3所述的遗忘事件中基于类激活特征的后门攻击方法，其特征在于，所述步骤三中，选择适合数据集CIFAR10的预训练模型ResNet18，该网络的基本架构是ResNet，网络的深度是18层，输入的图像经过一系列的预处理步骤，包括调整大小、转换为Tensor格式、归一化操作，以适应模型的输入要求，预处理后的图像被送入预训练的模型ResNet18中进行向前传播，得到针对每个类别的预测分数。

5.根据权利要求4所述的遗忘事件中基于类激活特征的后门攻击方法，其特征在于，所述步骤四通过步骤三得到每个类别的预测分数pre_logits，利用CAM提取方法SmoothGradCAM来计算热力图，传入模型预测的目标类别标签show_id和模型的预测输出pred_logits进行CAM区域提取，将CAM热力图的像素值归一化到[0，1]的范围，从归一化后的CAM热力图中找到最大值max_value及其在矩阵中的位置max_indices，若有多个像素具有最大值，则选择第一个找到的位置，若找不到最大值，则设置一个默认的位置坐标，以最大值所在的行列坐标为中心，在CIFAR数据集中固定大小4*4，提取一个固定大小的像素区域作为触发器的位置。

6.根据权利要求5所述的遗忘事件中基于类激活特征的后门攻击方法，其特征在于，根据步骤二与步骤五生成的触发器形状与触发器位置生成后门样本，并修改后门样本的标签为预定义的要被攻击的标签，设置攻击模式为all-to-one攻击，设置目标标签为0。

7.根据权利要求6所述的遗忘事件中基于类激活特征的后门攻击方法，其特征在于，在所述步骤六中，选取后门测试数据集，根据步骤一的遗忘事件来判断样本是否为被投毒数据，若是遗忘数据，则根据步骤二、步骤三与步骤四生成后门样本；否则，则为干净样本，将后门样本与干净样本一同放到训练好的后门模型中进行分类，最终，干净样本应被正确分类，后门样本应被分类为预定义的标签。

...

【技术特征摘要】

1.一种遗忘事件中基于类激活特征的后门攻击方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的遗忘事件中基于类激活特征的后门攻击方法，其特征在于，在所述步骤一中，数据集选用神经网络与深度学习中常见图像分类数据集cifar10，该数据集共有10个类别，60000个样本，每一张都是32*32像素的rgb图像，按批次计算所选图像数据集中遗忘事件的数量，对每个样本计算在相邻两个训练周期中准确率的变化，放入diiff数组中，统计每个样本的遗忘事件数量，放入forget_events数组中，根据遗忘事件数量对样本索引进行排序，从遗忘事件最多的样本开始排序，从遗忘事件的索引数组中选择一部分遗忘事件较多的中毒样本保留，保留的数量受到参数opt.alpha控制，从数据集中的其他样本中随机选择一些样本，补充到中毒样本中，将新选择的中毒样本的索引与之前选择的中毒样本的索引合并，形成最终的中毒样本。

3.根据权利要求2所述的遗忘事件中基于类激活特征的后门攻击方法，其特征在于，所述步骤二通过步骤一选取后门样本，将后门样本传递给生成器网络netg中，生成器netg首先定义初始化函数，在初始化函数中，根据数据集类型选择初始通道数量和上采样、下采样的层数；通过循环创建上采样和下采样的卷积块，每个卷积块包括卷积层、下采样层和relu激活函数；输入x经过生成器模型的所有层，通过tanh激活函数输出生成的图像，tanh函数将输出值映射到[-1, 1]的范围内，然后通过加0.5和除以2的操作将其映射到[0, 1]的范围内，将生成的触发模式进行归一化和反归一化，生成最终的触发模式。

4.根据权利要求3所述的遗忘事件中基于类激活特征的后门攻击方法，其特征在于，所述步骤三中，选择适合数据集cifar10的预训练模型re...

【专利技术属性】
技术研发人员：陈伟，李青芸，徐小棠，高子昂，张怡婷，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人