抵御对抗样本攻击的图像分类模型结构与训练方法及系统技术方案

技术编号：40811219 阅读：7 留言：0更新日期：2024-03-28 19:33

本发明专利技术提供一种抵御对抗样本攻击的图像分类模型结构与训练方法及系统，包括：步骤S1：构建低维对抗特征自学习净化模块，用于净化输入图像的低维对抗特征；步骤S2：构建高维对抗特征自学习净化模块，用于净化输入图像的高维对抗特征；步骤S3：结合所述低维对抗特征自学习净化模块和高维对抗特征自学习净化模块，构建图像分类模型AdvPurifyNet；步骤S4：对所述图像分类模型AdvPurifyNet进行训练与优化；步骤S5：获取各待处理的对抗样本图像，将各待防御的对抗样本图像输入到训练好的图像分类模型AdvPurifyNet中，输出鲁棒的图像分类结果。本发明专利技术能够在保持较高的图像分类性能的同时，提供了较强的对抗样本攻击防御能力，而且通用性强、防御效果好、操作便捷。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像分类、人工智能安全，具体地，涉及一种抵御对抗样本攻击的图像分类模型结构与训练方法及系统。

技术介绍

1、深度神经网络(dnn)在广泛的机器学习应用中已成为关键组件，同时受到学术界和工业界的高度关注。图像分类是计算机视觉领域的一项基础任务，它的目标是让计算机能够识别并分类图片中的主要内容。图像分类关注于识别整张图像作为一个整体属于哪个类别，而不特定于图像中的对象位置或数量。随着深度学习技术的发展，特别是卷积神经网络(cnn)在图像分类任务中的广泛应用，图像分类领域得到了显著的提升。深度神经网络能够从大量的数据中自动学习到复杂的特征，这些特征远比传统机器学习方法中的手工设计特征要强大。

2、然而，许多近期的研究揭露了cnn面对对抗样本攻击的脆弱性。对抗样本是攻击者故意设计的输入，目的是引导训练良好的模型产生错误的输出。cnn模型的非线性和不透明特性允许通过对原始样本引入细微且不可察觉的扰动来创建这些对抗样本。虽然这些细微扰动不会影响人眼的辨认，但cnn却显示出显著的脆弱性。当受到对抗样本的攻击时，这种脆弱性导致了错误的分类结果，进而限制了深度神经网络在各个领域更广泛的应用。

3、针对深度神经网络模型的对抗攻击方法的出现严重威胁了其在现实世界场景中的广泛应用，并且甚至动摇了研究者对深度学习前景的信心。因此，针对深度神经网络模型的对抗样本防御措施的构建具有重要的实践意义和迫切的现实需求。

4、目前，针对对抗攻击的防御策略主要集中在对抗训练技术上。然而，使用对抗训练的防御策略存在严重局

5、针对图像分类模型的对抗样本防御方法，目前公开的专利数目并不多，其中公开号为cn116824232a，标题为《一种数据填充式的深度神经网络图像分类模型对抗训练方法》的中国专利提供了一种图像分类模型对抗攻击防御方法，该方法通过对模型的输出层进行扩展，并选取有效的对抗训练策略，并在数据生成阶段基于对抗样本的原理生成填充类数据，随后，利用这些数据对模型进行训练，同时应用陷阱式平滑损失函数来更新模型参数，并通过多轮迭代训练来优化目标模型。然而该方法在处理干净样本时的性能会有所下降，并且在训练阶段，生成对抗性样本需要大量的计算资源。此外，由于该策略在对抗性训练上存在一定的局限性，它的应用范围受限，只能防御特定种类的攻击。本专利技术与该专利在对抗样本防御方法上有明显不同，本专利技术避开了传统对抗训练策略中的通用性不足和高计算成本的问题，而是创新地提出了结合低维和高维对抗特征自学习净化模块的图像分类模型advpurifynet，并设计了对应的使用基于阈值的自适应多任务学习机制的训练方法，具有较强的通用性，能够有效地抵御各种类型的对抗攻击，从而在对抗样本攻击下保持高可用的图像分类结果。

6、公开号为cn113487506a，标题为《基于注意力去噪的对抗样本防御方法、装置和系统》的中国专利提供了另一种对抗样本防御方案，该方法依据训练好的生成对抗网络gan模型,对所述待处理图像进行去噪处理,得到去噪图像，并依据所述去噪图像进行后续的图像分类等数据处理。然而该方法只是简单的利用gan模型对图像进行了去噪，对于对抗特征的去除较为粗糙，不能较好的净化过滤低维和高维的对抗特征，且网络设计并没有考虑到图像分类模型的结构，只是简单的附加于原始图像分类模型前。本专利技术与该专利在对抗样本防御方法上有明显不同，本专利技术创新地设计了结合低维和高维对抗特征自学习净化模块的图像分类模型advpurifynet以及使用基于阈值的自适应多任务学习机制的训练方法，并不是单纯地利用生成对抗网络gan模型对待处理图像进行去噪，具有较强的通用性，能够有效提高图像分类模型在对抗样本攻击场景下的鲁棒性。

技术实现思路

1、针对现有技术中的缺陷，本专利技术提供一种抵御对抗样本攻击的图像分类模型结构与训练方法及系统。

2、根据本专利技术提供的一种抵御对抗样本攻击的图像分类模型结构与训练方法及系统，所述方案如下：

3、第一方面，提供了一种抵御对抗样本攻击的图像分类模型结构与训练方法，所述方法包括：

4、步骤s1：构建低维对抗特征自学习净化模块，用于净化输入图像的低维对抗特征；

5、步骤s2：构建高维对抗特征自学习净化模块，用于净化输入图像的高维对抗特征；

6、步骤s3：结合所述低维对抗特征自学习净化模块和高维对抗特征自学习净化模块，构建图像分类模型advpurifynet；

7、步骤s4：对所述图像分类模型advpurifynet进行训练与优化；

8、步骤s5：获取各待处理的对抗样本图像，将各待防御的对抗样本图像输入到训练好的图像分类模型advpurifynet中，输出鲁棒的图像分类结果。

9、优选地，所述步骤s1中的低维对抗特征自学习净化模块具体模型结构如下：

10、步骤s1.1：首先将原始输入图像传递至一个卷积核大小3x3，步长为1，具有64个卷积核的卷积层；

11、步骤s1.2：将步骤s1.1的输出通过一个卷积核的大小为1x1，步长为1，具有64个卷积核的卷积层，然后将输出均匀分割成两组特征图，每组分别输入到一个输出维度为32、头维度为32的transformer块和由两个卷积核大小3x3，步长为1，具有32个卷积核的卷积层组成的残差卷积块，之后，两组的输出被拼接合并；最后再通过一个卷积核的大小为1x1，步长为1，具有64个卷积核的卷积层，以产生输入的残差，并和步骤s1.1的输出相加产生最终的输出；

12、步骤s1.3：将步骤s1.2的输出传递至一个卷积核大小2x2，步长为2，具有128个卷积核的卷积层；

13、步骤s1.4：将步骤s1.3的输出通过一个卷积核的大小为1x1，步长为1，具有128个卷积核的卷积层，然后将输出均匀分割成两组特征图，每组分别输入到一个输出维度为64、头维度为32的transformer块和由两个卷积核大小3x3，步长为1，具有64个卷积核的卷积层组成的残差卷积块，之后，两组的输出被拼接合并；最后再通过一个卷积核的大小为1x1，步长为1，具有128个卷积核的卷积层，以产生输入的残差，并和步骤s1.3的输出相加产生最终的输出；

14、步骤s1.5：将步骤s1.4的输出传递至一个卷积核大小2x2，步长为2，具有256个卷积核的卷积层；

15、步骤s1.6：将步骤s1.5的输出通过一个卷积核的大小为1x1，步长为1，具有256个卷积核的卷积层，然本文档来自技高网...

【技术保护点】

1.一种抵御对抗样本攻击的图像分类模型结构与训练方法，其特征在于，包括：

2.根据权利要求1所述的抵御对抗样本攻击的图像分类模型结构与训练方法，其特征在于，所述步骤S1中的低维对抗特征自学习净化模块具体模型结构如下：

3.根据权利要求1所述的抵御对抗样本攻击的图像分类模型结构与训练方法，其特征在于，所述步骤S2中的高维对抗特征自学习净化模块具体模型结构如下：

4.根据权利要求1所述的抵御对抗样本攻击的图像分类模型结构与训练方法，其特征在于，所述步骤S3提供的结合低维对抗特征自学习净化模块和高维对抗特征自学习净化模块的图像分类模型AdvPurifyNet具体模型结构如下：

5.根据权利要求1所述的抵御对抗样本攻击的图像分类模型结构与训练方法，其特征在于，所述步骤S4使用基于阈值的自适应多任务学习机制的训练方法对图像分类模型AdvPurifyNet进行训练与优化，具体包括：

6.一种抵御对抗样本攻击的图像分类模型结构与训练系统，其特征在于，包括：

7.根据权利要求6所述的抵御对抗样本攻击的图像分类模型结构与训练系

8.根据权利要求6所述的抵御对抗样本攻击的图像分类模型结构与训练系统，其特征在于，所述模块M2中的高维对抗特征自学习净化模块具体模型结构如下：

9.根据权利要求6所述的抵御对抗样本攻击的图像分类模型结构与训练系统，其特征在于，所述模块M3提供的结合低维对抗特征自学习净化模块和高维对抗特征自学习净化模块的图像分类模型AdvPurifyNet具体模型结构如下：

10.根据权利要求6所述的抵御对抗样本攻击的图像分类模型结构与训练系统，其特征在于，所述模块M4使用基于阈值的自适应多任务学习机制的训练方法对图像分类模型AdvPurifyNet进行训练与优化，具体包括：

...

【技术特征摘要】

1.一种抵御对抗样本攻击的图像分类模型结构与训练方法，其特征在于，包括：

2.根据权利要求1所述的抵御对抗样本攻击的图像分类模型结构与训练方法，其特征在于，所述步骤s1中的低维对抗特征自学习净化模块具体模型结构如下：

3.根据权利要求1所述的抵御对抗样本攻击的图像分类模型结构与训练方法，其特征在于，所述步骤s2中的高维对抗特征自学习净化模块具体模型结构如下：

4.根据权利要求1所述的抵御对抗样本攻击的图像分类模型结构与训练方法，其特征在于，所述步骤s3提供的结合低维对抗特征自学习净化模块和高维对抗特征自学习净化模块的图像分类模型advpurifynet具体模型结构如下：

5.根据权利要求1所述的抵御对抗样本攻击的图像分类模型结构与训练方法，其特征在于，所述步骤s4使用基于阈值的自适应多任务学习机制的训练方法对图像分类模型advpurifynet进行训练与优化，具体包括：

...

【专利技术属性】
技术研发人员：陈康，许可，孙锬锋，蒋兴浩，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人