一种基于可验证鲁棒AUC的端到端对抗训练方法技术

技术编号：39940151 阅读：6 留言：0更新日期：2024-01-08 22:29

本发明专利技术提供了一种基于可验证鲁棒AUC的端到端对抗训练方法，包括：获取具有长尾分布的图像分类的训练集，其包括多个原始样本和标签；利用训练集，按照以下方式对图像分类模型进行多次迭代训练，得到经训练的图像分类模型：基于标签，针对每个类别，将训练集中属于该类别的每个原始样本作为一个正样本与每个负样本组成一个该类别的原始样本对；针对样本对集合的每个类别的每个原始样本对，构造一个与之对应的该类别的扰动样本对，扰动样本对中的扰动正样本和扰动负样本是对应的原始样本对中的正样本和负样本分别加上本次训练时根据预设的正态分布随机采样得到的同一个扰动矩阵得到；将所有的扰动正样本和扰动负样本输入图像分类模型基于AUC训练模型。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习领域，具体来说涉及图像分类的扰动对抗领域，更具体地说，涉及一种基于可验证鲁棒auc的端到端对抗训练方法。

技术介绍

1、深度神经网络因为性能较优，在人工智能领域中受到越来越多的关注。虽然深度神经网络在很多领域都有优秀的性能表现，但是其易受到经过精心设计的对抗样本的影响。对抗样本是通过对原样本添加扰动而形成，人类肉眼往往无法发现对抗样本和原样本的区别，且对抗样本能够欺骗深度神经网络，使其做出错误的决策。

2、常见的对抗样本生成方式包括注入噪声分布、像素扰动、设置触发特征等，例如，通过l∞、l2或者l0范数限制为每个样本注入的扰动大小，使得扰动无法被察觉，这种对抗攻击不需要知道网络参数或梯度的任何信息，在cifar、mnist等公开数据集上可以取得高欺骗率。

3、但是目前对于深度神经网络的鲁棒性设计方法主要针对于准确率设计，这种思路假设数据类别分布是总体平衡的。在实际场景中，尤其是在注重安全的任务中，数据往往呈现长尾分布，即少部分类的样本数量很大而大部分类的样本数量很小。因此，针对准确率(accuracy)设计的鲁棒方法，可能会导致网络对样本数量少的类的防御不足，从而在特定场景下造成安全隐患。

4、因此，在数据往往呈现长尾分布的场景下，如何设计鲁棒的深度神经网络来防御潜在的扰动攻击是一个亟需解决的问题。这在需要有安全保证的场景下十分重要，如图像分类、根据语音的对象分类等。

技术实现思路

1、因此，本专利技术的目的在于克服上述现有

2、本专利技术的目的是通过以下技术方案实现的：

3、根据本专利技术的第一方面，提供一种用于图像分类模型的对抗训练方法，包括：获取具有长尾分布性质的图像分类的训练集，其包括多个原始样本和对应的标签，每个原始样本为一张图像，每个标签指示对应原始样本对应的类别；利用所述训练集，按照以下方式对图像分类模型进行多次迭代训练，得到经训练的图像分类模型：基于所述标签，针对每个所述类别，将所述训练集中属于该类别的每个原始样本作为一个正样本与每个负样本组成一个该所述类别的原始样本对，得到各类别的多个原始样本对构成的样本对集合，其中所述负样本是不属于该类别的原始样本；针对所述样本对集合的每个类别的每个原始样本对，构造一个与之对应的该类别的扰动样本对，所述扰动样本对中的扰动正样本和扰动负样本是对应的原始样本对中的正样本和负样本分别加上本次训练时根据预设的正态分布随机采样得到的同一个扰动矩阵得到；将所有的扰动正样本和扰动负样本输入图像分类模型，所述图像分类模型根据每个输入提取其对应的图像特征并根据所述图像特征确定其在各个类别的置信度；利用预设损失函数根据每个类别的扰动样本对中扰动正样本与扰动负样本在该类别的置信度的差值计算的损失更新图像分类模型的参数。

4、可选的，在所述多次迭代训练中的每次训练中，均对每个类别的每个原始样本对利用以下所述预设的正态分布采样一个该原始样本对的扰动矩阵：

5、

6、其中，ζ表示扰动矩阵，i表示与所述训练集中原始样本的长宽尺寸一致的单位矩阵，σ表示标准差，基于该预设的正态分布使得同一个扰动矩阵中的各个元素等于从正态分布采样的同一个随机数。

7、可选的，所述预设损失函数计算的损失被配置为与每个类别下的各扰动样本对中扰动正样本在该类别的置信度减去扰动负样本在该类别的置信度的差值之和负相关。

8、可选的，所述图像分类模型为一个基于深度神经网络的特征提取器和一个分类器构成，所述特征提取器用于根据输入的图像提取其对应的图像特征，所述分类器用于根据所述图像特征确定该输入的图像在各个类别的置信度，所述输入的图像是任意扰动样本对中的扰动正样本或者扰动负样本。

9、可选的，所述预设损失函数计算的损失被配置为以下每种类别的子损失的加权和：

10、

11、其中，表示任意一种类别的子损失函数计算的子损失，n+表示该类别的扰动正样本的数量，n-表示该类别的扰动负样本的数量，表示第i个扰动正样本，表示与第i个扰动正样本加上了相同扰动矩阵的第j个扰动负样本，表示图像分类模型确定的扰动正样本在该类别的置信度减去扰动负样本在该类别的置信度的差值，l(·)表示光滑可微的代理损失函数。

12、可选的，所述图像分类模型包括彼此独立的多个图像分类子模型，每个类别设置一个对应的图像分类子模型，该每个类别对应的图像分类子模型仅利用该类别的扰动样本对进行所述训练，其中，每个类别对应的图像分类子模型包括子特征提取器和二分类器，所述子特征提取器用于根据输入的图像提取其对应的图像特征，所述二分类器用于根据所述图像特征确定该输入的图像在该二分类器所属图像分类子模型对应类别的置信度。

13、可选的，所述预设损失函数计算的损失被配置为按照以下方式确定：

14、

15、其中，表示任意一个类别对应的图像分类子模型的损失，n+表示该类别的扰动正样本的数量，n-表示该类别的扰动负样本的数量，表示第i个扰动正样本，表示与第i个扰动正样本加上了相同扰动矩阵的第j个扰动负样本，表示图像分类子模型确定的扰动正样本在该类别的置信度减去扰动负样本在该类别的置信度的差值，l(·)表示光滑可微的代理损失函数。

16、根据本专利技术的第二方面，提供一种图像分类方法，所述方法包括：获取待分类的图像；利用第一方面得到的经训练的图像分类模型按照以下方式进行图像分类：

17、

18、其中，表示经训练的图像分类模型对待分类的图像x的预测结果，t表示在本次预测时利用所述预设的正态分布随机采样得到的扰动矩阵的个数，ζt表示t个扰动矩阵中第t个扰动矩阵，g(x+ζt)表示经训练的图像分类模型g(·)对待分类的图像x的每个通道加上扰动矩阵ζt后得到的扰动样本的预测结果。

19、根据本专利技术的第三方面，提供一种电子设备，包括：一个或多个处理器；以及存储器，其中存储器用于存储可执行指令；所述一个或多个处理器被配置为经由执行所述可执行指令以实现第一方面和/或第二方面中任一项所述方法的步骤。

本文档来自技高网...

【技术保护点】

1.一种用于图像分类模型的对抗训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述多次迭代训练中的每次训练中，均对每个类别的每个原始样本对利用以下所述预设的正态分布采样一个该原始样本对的扰动矩阵：

3.根据权利要求2所述的方法，其特征在于，所述预设损失函数计算的损失被配置为与每个类别下的各扰动样本对中扰动正样本在该类别的置信度减去扰动负样本在该类别的置信度的差值之和负相关。

4.根据权利要求3所述的方法，其特征在于，所述图像分类模型为一个基于深度神经网络的特征提取器和一个分类器构成，所述特征提取器用于根据输入的图像提取其对应的图像特征，所述分类器用于根据所述图像特征确定该输入的图像在各个类别的置信度，所述输入的图像是任意扰动样本对中的扰动正样本或者扰动负样本。

5.根据权利要求4所述的方法，其特征在于，所述预设损失函数计算的损失被配置为以下每种类别的子损失的加权和：

6.根据权利要求3所述的方法，其特征在于，所述图像分类模型包括彼此独立的多个图像分类子模型，每个类别设置一个对应的图像分类子模型，

7.根据权利要求6所述的方法，其特征在于，所述预设损失函数计算的损失被配置为按照以下方式确定：

8.一种图像分类方法，其特征在于，所述方法包括：

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序可被处理器执行以实现权利要求1至8中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

...

【技术特征摘要】

1.一种用于图像分类模型的对抗训练方法，其特征在于，包括：

4.根据权利要求3所述的方法，其特征在于，所述图像分类模型为一个基于深度神经网络的特征提取器和一个分类器构成，所述特征提取器用于根据输入的图像提取其对应的图像特征，所述分类器用于根据所述图像特征确定该输入的图像在各个类别的置信度，所述输入的图像是任意扰动样本对中的扰动正样本或...

【专利技术属性】
技术研发人员：许倩倩，包世龙，杨智勇，操晓春，黄庆明，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人