清理模型训练方法、触发器清理方法、装置和存储介质制造方法及图纸

技术编号：38756586 阅读：30 留言：0更新日期：2023-09-10 09:41

本申请涉及一种清理模型训练方法，该方法包括：循环执行如下步骤，直至清理模型满足收敛条件：获取用于生成触发器的生成模型，将图像噪声输入生成模型得到触发器，其中，生成模型根据上一轮训练得到的清理模型和图像噪声迭代得到；叠加不包含触发器的样本图像的图像矩阵和触发器，将叠加结果输入上一轮训练得到的清理模型，得到清理图像；将清理图像输入受后门攻击的模型，得到清理图像的图像标签；根据图像标签和样本图像的真实标签之间的标签距离、清理图像和样本图像之间的像素距离，调整上一轮训练阶段训练得到的清理模型的参数，解决了用于清理未知数据集中触发器的清理模型适用范围较小的问题，实现了后门攻击防御效果的提高。果的提高。果的提高。

全部详细技术资料下载

【技术实现步骤摘要】
清理模型训练方法、触发器清理方法、装置和存储介质

[0001]本申请涉及人工智能安全领域领域，特别是涉及清理模型训练方法、触发器清理方法、装置和存储介质。

技术介绍

[0002]伴随近几年人工智能技术的应用以及机器学习即服务的发展，人工智能的安全问题也逐渐被重视。经过研究发现神经网络其实是非常脆弱的，只需要对输入作出非常微小的改动，就可以让预测结果大相径庭。目前针对神经网络输入的攻击主要有对抗样本和后门攻击两种。其中，后门攻击需要在神经网络中植入后门，并在输入的样本图片中加入触发器，达到触发模型的后门并使结果预测结果变成自己想要的目标标签的效果。通过在输入神经网络大量测试样本中混入少量带有触发器的样本，就可以训练出带有后门的模型，只需测试样本中同样带有触发器，就可以触发模型的后门，使结果预测结果变成攻击者想要的目标标签。
[0003]相关技术中，通过训练一个掩码mask来大致确定触发器在神经网络中的方位，进而实现触发器的逆向，同时微调预测标签的神经网络模型以防御后门攻击。该方法无法用于触发器大范围覆盖图片的情况，且需...

【技术保护点】

【技术特征摘要】
1.一种清理模型训练方法，所述清理模型用于清理触发器，其特征在于，包括：循环执行如下步骤，直至所述清理模型满足收敛条件：获取用于生成触发器的生成模型，将第一图像噪声输入所述生成模型，得到第一触发器，其中，所述生成模型根据上一轮训练阶段训练得到的清理模型和第二图像噪声迭代得到；叠加不包含触发器的第一样本图像的第一图像矩阵和所述第一触发器，将第一叠加结果输入上一轮训练阶段训练得到的清理模型，得到第一清理图像；将所述第一清理图像输入受后门攻击的模型，得到所述第一清理图像的第一图像标签；根据所述第一图像标签和所述第一样本图像的真实标签之间的标签距离、所述第一清理图像和所述第一样本图像之间的像素距离，调整上一轮训练阶段训练得到的清理模型的参数。2.根据权利要求1所述的清理模型训练方法，其特征在于，获取用于生成触发器的生成模型，包括：将所述第二图像噪声输入上一轮训练阶段训练得到的生成模型，得到第二触发器；叠加所述第一样本图像和所述第二触发器，将第二叠加结果输入上一轮训练阶段训练得到的清理模型，得到第二清理图像；将所述第二清理图像输入受后门攻击的模型，得到所述第二叠加结果的第二图像标签；根据所述第二图像标签和所述第一样本图像的真实标签之间的标签距离、所述第二触发器的范数，调整上一轮训练阶段训练得到的生成模型的参数。3.根据权利要求2所述的清理模型训练方法，其特征在于，所述生成模型的参数用于约束在上一轮训练阶段训练得到的生成模型的分布状态。4.根据权利要求2所述的清理模型训练方法，其特征在于，调整上一轮训练阶段训练得到的生成模型的参数，包括：最大化所述第二图像标签和所述第一样本图像的真实标签之间的标签距离，最小化所述第二触发器的范数；根据最大化后的所述第二图像标签和所述第一样本图像的真实标签之间的标签距离、最小化后的所述第二触发器的范数，调整上一轮训练阶段训练得到的生成模型的参数。5.根据权利要求1所述的清理模型训练方法，其特征在于，调整上一轮训练阶段训练得到的清理模型的参数，包括：最小化所述第一图...

【专利技术属性】
技术研发人员：徐雄，秦湛，
申请(专利权)人：浙江大学杭州国际科创中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人