一种含基础样本筛选过程的梯度对齐投毒攻击方法技术

技术编号：38854115 阅读：21 留言：0更新日期：2023-09-17 10:00

本发明专利技术设计一种含基础样本筛选过程的梯度对齐投毒攻击方法；集中在制作毒化样本阶段，包括：使用梯度对齐的方法制作毒化样本，同时最小化目标样本与毒化样本损失函数梯度之间的负余弦相似度以及基础样本与毒化样本损失函数梯度之间的余弦相似度，使得毒化样本在梯度空间中与具有攻击目标标签的目标样本具有一致的梯度方向，同时使得毒化样本与制作毒化样本的原始样本在梯度空间中梯度方向背离，使用Adam优化器执行优化得到最优的毒化样本；在优化步骤的前期通过动态剔除候选基础样本集中的样本，来选择具有更强动力向目标样本靠近的的基础样本作为最终选定的基础样本，以避免随机选择带来的对攻击效果的损害。免随机选择带来的对攻击效果的损害。

全部详细技术资料下载

【技术实现步骤摘要】
一种含基础样本筛选过程的梯度对齐投毒攻击方法

[0001]本专利技术涉及数据投毒攻击方法，具体涉及一种含基础样本筛选过程的梯度对齐投毒攻击方法。

技术介绍

[0002]深度学习的过程由数据提供者、深度模型训练和模型使用者三方共同参与，当数据提供者既提供数据又训练和使用模型时，模型和数据安全能够得到一定保障，但是在现实的生产生活中，深度学习的参与方是分离的，因而深度模型的安全性往往受到多方面的威胁。目前大量的研究集中于在测试阶段对模型进行攻击，而数据投毒攻击则是少数的关注在模型训练阶段的攻击方法，数据投毒攻击不需要攻击者在测试阶段控制模型的输入，只需要在训练集中注入少量的被操纵制作而成的毒化样本即可实现攻击，在现实场景中，这种攻击方法更加容易实现，例如：攻击者可以将毒化样本插入一些常用的数据集中如CIFAR10、ImageNet、CIFAR100等等，再将这些数据集上传到网络上如DropBox、GoogleDrive、百度网盘等等，提供给模型训练者们下载，或者将制作好的毒化样本直接上传到网络，如社交媒体、百度百科等等，模型训练者们采用爬虫收集数据集时将无意识的采集到毒化样本，攻击者即可实现投毒。
[0003]早期的数据投毒攻击使用的是标签反转方法，即敌手将少量带有错误标签的样本输入到受害者拥有的模型中，经过训练之后使得模型对于这些样本的识别结果发生偏移，同时不影响模型对于训练集中其他样本的测试准确率。但由于标签反转方法隐蔽性差，模型拥有者在训练前对训练集进行检查即可排除被投毒的风险。因此，近期的研究工作集中在干...

【技术保护点】

【技术特征摘要】
1.一种含基础样本筛选过程的梯度对齐投毒攻击方法，其特征在于，包括如下步骤：步骤1：构建用于敌手制作毒化样本的替代模型和用于攻击的目标模型，并获取用于训练替代模型的训练实例以及用于训练和测试目标模型的实例；步骤2：随机选择敌手攻击的目标标签和目标样本，规定投毒时可注入的毒化样本数量；步骤3：根据选择的目标标签从具有此标签的目标样本中获取一组基础样本作为候选基础样本，候选基础样本的个数大于规定投毒样本数量，至少是投毒样本数量的十倍；步骤4：规定制作毒化样本时向候选基础样本添加扰动的扰动边界，规定制作毒化样本时优化的迭代次数，规定迭代重启轮数；步骤5：随机初始化一个扰动，添加到所有候选基础样本上；所述随机初始化的扰动为一个在扰动边界内部的高斯扰动；步骤6：对所有候选基础样本进行k步优化，获得k步后生成的毒化样本；步骤7：对剩余的候选基础样本重复步骤6直至剩余候选基础样本数量等于规定投毒时可注入的毒化样本数量，作为选定的基础样本；步骤8：对选定的基础样本进行优化直到完成规定的迭代次数，得到最终生成的毒化样本；步骤9：使用生成的毒化样本对目标模型进行微调；步骤10：在微调后的目标模型上使用目标样本进行测试，使用测试集样本进行测试。2.根据权利要求1所述的一种含基础样本筛选过程的梯度对齐投毒攻击方法，其特征在于，步骤1所述构建替代模型具体为：使用与目标模型相同的模型结构，使用与目标模型训练实例具有相同分布的数据集进行训练，得到敌手制作毒化模型时使用的替代模型。3.根据权利要求1所述的一种含基础样本筛选过程的梯度对齐投毒攻击方法，其特征在于，步骤1所述获取用于训练替代模型的训练实例的方法为：和目标模型训练测试使用同一个数据集，并将数据集进行划分为有重叠或无重叠的两部分，无重叠对半划分，有重叠则按照重叠比例划分。4.根据权利要求1所述的一种含基础样本筛选过程的梯度对齐投毒攻击方法，其特征在于，步骤3所述获取候选基础样本的方法为：从替代模型的训练集中划分一部分具有目标标签的干净样本作为候选基础样本；基础样本的数量不超过目标模型训练集样本数量的10％；至少是投毒样本数量的十倍。5.根据权利要求1所述的一种含基础样本筛选过程的梯度对齐投毒攻击方法，其特征在于，步骤6所述进行的k步优化仅占完整优化迭代次数的5％。6.根据权利要求1所述的一种含基础样本筛选过程的梯度对...

【专利技术属性】
技术研发人员：杨晓春，靳耀宇，隋志锐，王斌，翟莹莹，
申请(专利权)人：东北大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人