【技术实现步骤摘要】
清理模型训练方法、触发器清理方法、装置和存储介质
[0001]本申请涉及人工智能安全领域领域,特别是涉及清理模型训练方法、触发器清理方法、装置和存储介质。
技术介绍
[0002]伴随近几年人工智能技术的应用以及机器学习即服务的发展,人工智能的安全问题也逐渐被重视。经过研究发现神经网络其实是非常脆弱的,只需要对输入作出非常微小的改动,就可以让预测结果大相径庭。目前针对神经网络输入的攻击主要有对抗样本和后门攻击两种。其中,后门攻击需要在神经网络中植入后门,并在输入的样本图片中加入触发器,达到触发模型的后门并使结果预测结果变成自己想要的目标标签的效果。通过在输入神经网络大量测试样本中混入少量带有触发器的样本,就可以训练出带有后门的模型,只需测试样本中同样带有触发器,就可以触发模型的后门,使结果预测结果变成攻击者想要的目标标签。
[0003]相关技术中,通过训练一个掩码mask来大致确定触发器在神经网络中的方位,进而实现触发器的逆向,同时微调预测标签的神经网络模型以防御后门攻击。该方法无法用于触发器大范围覆盖图片的情况,且需 ...
【技术保护点】
【技术特征摘要】
1.一种清理模型训练方法,所述清理模型用于清理触发器,其特征在于,包括:循环执行如下步骤,直至所述清理模型满足收敛条件:获取用于生成触发器的生成模型,将第一图像噪声输入所述生成模型,得到第一触发器,其中,所述生成模型根据上一轮训练阶段训练得到的清理模型和第二图像噪声迭代得到;叠加不包含触发器的第一样本图像的第一图像矩阵和所述第一触发器,将第一叠加结果输入上一轮训练阶段训练得到的清理模型,得到第一清理图像;将所述第一清理图像输入受后门攻击的模型,得到所述第一清理图像的第一图像标签;根据所述第一图像标签和所述第一样本图像的真实标签之间的标签距离、所述第一清理图像和所述第一样本图像之间的像素距离,调整上一轮训练阶段训练得到的清理模型的参数。2.根据权利要求1所述的清理模型训练方法,其特征在于,获取用于生成触发器的生成模型,包括:将所述第二图像噪声输入上一轮训练阶段训练得到的生成模型,得到第二触发器;叠加所述第一样本图像和所述第二触发器,将第二叠加结果输入上一轮训练阶段训练得到的清理模型,得到第二清理图像;将所述第二清理图像输入受后门攻击的模型,得到所述第二叠加结果的第二图像标签;根据所述第二图像标签和所述第一样本图像的真实标签之间的标签距离、所述第二触发器的范数,调整上一轮训练阶段训练得到的生成模型的参数。3.根据权利要求2所述的清理模型训练方法,其特征在于,所述生成模型的参数用于约束在上一轮训练阶段训练得到的生成模型的分布状态。4.根据权利要求2所述的清理模型训练方法,其特征在于,调整上一轮训练阶段训练得到的生成模型的参数,包括:最大化所述第二图像标签和所述第一样本图像的真实标签之间的标签距离,最小化所述第二触发器的范数;根据最大化后的所述第二图像标签和所述第一样本图像的真实标签之间的标签距离、最小化后的所述第二触发器的范数,调整上一轮训练阶段训练得到的生成模型的参数。5.根据权利要求1所述的清理模型训练方法,其特征在于,调整上一轮训练阶段训练得到的清理模型的参数,包括:最小化所述第一图...
【专利技术属性】
技术研发人员:徐雄,秦湛,
申请(专利权)人:浙江大学杭州国际科创中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。