System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种隐藏的多触发多模态后门攻击方法技术_技高网

一种隐藏的多触发多模态后门攻击方法技术

技术编号:40202225 阅读:4 留言:0更新日期:2024-02-02 22:15
本发明专利技术公开了一种隐藏的多触发多模态后门攻击方法,其方法主要包括:获取输入的训练数据集,隐蔽地创建多个触发器,同时保留单个触发器的原始特征;生成的文本触发器,保留了原始问题的视觉形式,同时抛弃了其语义;生成的图像触发器,为每个样本创建不同的扰动触发器,保留隐写信息的语义背景,并保持人类无法察觉;构建有害数据集;按照训练程序训练多模态模型,进行模型推理;中毒的多模态模型在良性测试样本上表现正常,然而,一旦后门被激活,神经网络就会对输入图像和问题的任何组合产生一个特定的反应,当文本和图像后门触发器同时存在时,模型的预测将被改变为目标标签,实现后门攻击。

【技术实现步骤摘要】

本专利技术涉及人工智能领域中多模态模型领域,尤其涉及一种隐藏的多触发多模态后门攻击方法


技术介绍

1、近年来,计算机视觉和自然语言处理方面取得了重大进展,导致了高度先进的多模式模型的发展。这些模型在涉及视觉和语言信息的预训练任务中表现出色,使它们对图像-文本检索和视觉问题回答等任务具有价值。然而,随着这些预训练的模型被广泛采用,它们引入了新的安全挑战,特别是以后门攻击的形式。

2、后门攻击涉及故意毒害机器学习模型的训练数据以诱发异常行为。现有技术已经调查了计算机视觉和自然语言处理模型中的后门攻击,但对其对多模式模型的影响关注有限,这些模型依靠来自多个输入源的信息来执行复杂的任务,随着其复杂性的增加,其对后门攻击的脆弱性也在增加。


技术实现思路

1、本专利技术所要解决的问题是:提供一种隐藏的多触发多模态后门攻击方法,在不影响正常数据多模态模型性能的情况下,成功执行后门攻击,提高攻击成功率。

2、本专利技术采用如下技术方案:

3、一种隐藏的多触发多模态后门攻击方法,包括以下步骤:

4、步骤1、获取训练数据集,生成触发器:将所述训练数据集分成文本和图像两类,分别生成文本触发器和图像触发器,对于所述图像,触发器隐形的额外噪音是由隐写编码器产生的,它包含目标标签的字符串信息,对于所述文本,触发器是通过替换象形文字产生的;

5、步骤2、构建有害数据集:从所述训练数据集中选取一部分,为文本和图像两种样本添加样本相应的图片触发器和文本触发器,生成中毒样本数据集,将所述原有训练数据集和生成的中毒样本数据集混合,生成最终的有害数据集;

6、步骤3、模型训练:使用有害数据集,按照训练程序训练多模态模型,所述训练程序与标准训练程序不同的是,所述训练程序中包括单图像后门训练和单文本后门训练,其中只存在一个触发器,且目标标签没有改变;

7、步骤4、模型推理:中毒的多模态模型在良性测试样本上表现正常,然而,当文本和图像后门触发器同时存在时,模型的预测将被改变为目标标签,实现后门攻击。

8、具体的,步骤1所述生成文本触发器,为利用文本中的象形文字替换插入触发器来生成有毒的句子,用象形文字映射的等价物替换干净输入序列中的特定字符,被替换的字符被标记为“unk”代表超出文本词汇表的未知字符,所述“unk”是明确的异常情况信号,由此产生的句子为有毒句子,所述有毒句子保持了可读性,但失去了部分语义。

9、其中,所述生成图片触发器,使用预先训练好的编码器-解码器网络,为基于深度神经网络dnn的图像隐写术创建图片触发器,所述图片触发器是添加到包含不可见目标标记的代表性字符串中的额外噪音,使用目标字符串作为嵌入触发器。

10、所述的图片触发器,方法包括:

11、步骤1.1、在编码阶段,要编码的字符串首先被转换为二进制表示,字符串用ascii编码或unicode编码转换为相应的二进制序列,每个字符都被映射为一个固定长度的二进制值;

12、步骤1.2、二进制数据被分组为编码块,每个块都是bch编码,bch编码使用生成多项式来计算校验位并将其添加到块的末端;

13、步骤1.3、所有的编码块串联起来,形成一个完整的编码序列,所述编码序列是对原始字符串进行bch编码后得到的结果,bch编码的二进制字符串作为输入信息,由编码器网络通过全连接层和上采样进行计算,生成触发器。

14、进一步的,步骤2中所述的构建有害数据集,该方法包括:

15、步骤2.1、从原有的干净训练数据集中随机选择一定比例样本作为待投毒样本;

16、步骤2.2、为所述待投毒样本中文本样本和图像样本分别添加相应的图片触发器和文本触发器,根据生成的文本触发器和图片触发器生成中毒样本数据集;

17、步骤2.3、将生成的中毒样本与所有的原有干净样本混合生成有害数据集。

18、进一步的,步骤3中所述的模型训练,该方法包括:

19、在训练阶段,使用包含正常样本和同时具有文本和图像后门触发器的中毒样本的有害数据集,按照训练程序训练多模态模型,将所述训练数据分割为四份,包括第一训练数据集已经完全中毒,目标标签已经改变,第二训练数据集没有任何触发器,目标标签没有改变,第三训练数据集和第四训练数据集只存在一个触发器,目标标签没有变化,在训练过程中,模型从正常样本以及后门触发器中学习,训练目标是使模型在同时具有文本和图像后门触发器时产生不正确的答案。

20、进一步的,步骤4中所述的模型推理,该方法包括:中毒的多模态模型在良性测试样本上表现正常。当且仅当所述文本触发器和图像触发器都存在时,后门才会激活,当加入多个后门触发器时,模型的预测将被改变为目标标签,实现攻击效果。

21、本专利技术采用以上技术方案与现有技术相比,具有以下有益效果:

22、本专利技术提供了通过为多个模态模型输入生成隐蔽且肉眼难以识别的触发器对多模态模型进行后门攻击的方法,这种方法充分利用了计算机自然语言处理领域、计算机视觉领域和多模态模型领域的相关技术成果。

23、本专利技术在不影响正常数据多模态模型性能的情况下成功执行了攻击,达到很高的攻击成功率以及很好的隐蔽性能,使得生成的投毒数据中包含的触发器难以被发现。

本文档来自技高网...

【技术保护点】

1.一种隐藏的多触发多模态后门攻击方法,其特征在于,该方法包括:

2.如权利要求1所述的一种隐藏的多触发多模态后门攻击方法,其特征在于,步骤1所述生成文本触发器,为利用文本中的象形文字替换插入触发器来生成有毒的句子,用象形文字映射的等价物替换干净输入序列中的特定字符,被替换的字符被标记为“UNK”代表超出文本词汇表的未知字符,所述“UNK”是明确的异常情况信号,由此产生的句子为有毒句子,所述有毒句子保持了可读性,但失去了部分语义。

3.如权利要求1所述的一种隐藏的多触发多模态后门攻击方法,其特征在于,步骤1所述生成图片触发器,使用预先训练好的编码器-解码器网络,为基于深度神经网络Dnn的图像隐写术创建图片触发器,所述图片触发器是添加到包含不可见目标标记的代表性字符串中的额外噪音,使用目标字符串作为嵌入触发器。

4.如权利要求3所述的一种隐藏的多触发多模态后门攻击方法,其特征在于,步骤1所述的图片触发器,方法包括:

5.如权利要求4所述的一种隐藏的多触发多模态后门攻击方法,其特征在于步骤2中所述的构建有害数据集,该方法包括:

<p>6.如权利要求5所述的一种隐藏的多触发多模态后门攻击方法,其特征在于步骤3中所述的模型训练,包括:在训练阶段,使用包含正常样本和同时具有文本和图像后门触发器的中毒样本的有害数据集,按照训练程序训练多模态模型,将所述训练数据分割为四份,包括第一训练数据集已经完全中毒,目标标签已经改变,第二训练数据集没有任何触发器,目标标签没有改变,第三训练数据集和第四训练数据集只存在一个触发器,目标标签没有变化,在训练过程中,模型从正常样本以及后门触发器中学习,训练目标是使模型在同时具有文本和图像后门触发器时产生不正确的答案。

7.如权利要求6所述的一种隐藏的多触发多模态后门攻击方法,其特征在于步骤4中所述的模型推理,所述推理方法包括:中毒的多模态模型在良性测试样本上表现正常,仅当所述文本触发器和图像后门触发器都存在时,后门才会激活,模型的预测将被改变为目标标签,实现攻击效果。

...

【技术特征摘要】

1.一种隐藏的多触发多模态后门攻击方法,其特征在于,该方法包括:

2.如权利要求1所述的一种隐藏的多触发多模态后门攻击方法,其特征在于,步骤1所述生成文本触发器,为利用文本中的象形文字替换插入触发器来生成有毒的句子,用象形文字映射的等价物替换干净输入序列中的特定字符,被替换的字符被标记为“unk”代表超出文本词汇表的未知字符,所述“unk”是明确的异常情况信号,由此产生的句子为有毒句子,所述有毒句子保持了可读性,但失去了部分语义。

3.如权利要求1所述的一种隐藏的多触发多模态后门攻击方法,其特征在于,步骤1所述生成图片触发器,使用预先训练好的编码器-解码器网络,为基于深度神经网络dnn的图像隐写术创建图片触发器,所述图片触发器是添加到包含不可见目标标记的代表性字符串中的额外噪音,使用目标字符串作为嵌入触发器。

4.如权利要求3所述的一种隐藏的多触发多模态后门攻击方法,其特征在于,步骤1所述的图片触发器,方法包括:

5.如权利要求4...

【专利技术属性】
技术研发人员:周璐李治城李丕绩
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1