一种隐藏的多触发多模态后门攻击方法技术

技术编号：40202225 阅读：29 留言：0更新日期：2024-02-02 22:15

本发明专利技术公开了一种隐藏的多触发多模态后门攻击方法，其方法主要包括：获取输入的训练数据集，隐蔽地创建多个触发器，同时保留单个触发器的原始特征；生成的文本触发器，保留了原始问题的视觉形式，同时抛弃了其语义；生成的图像触发器，为每个样本创建不同的扰动触发器，保留隐写信息的语义背景，并保持人类无法察觉；构建有害数据集；按照训练程序训练多模态模型，进行模型推理；中毒的多模态模型在良性测试样本上表现正常，然而，一旦后门被激活，神经网络就会对输入图像和问题的任何组合产生一个特定的反应，当文本和图像后门触发器同时存在时，模型的预测将被改变为目标标签，实现后门攻击。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能领域中多模态模型领域，尤其涉及一种隐藏的多触发多模态后门攻击方法。

技术介绍

1、近年来，计算机视觉和自然语言处理方面取得了重大进展，导致了高度先进的多模式模型的发展。这些模型在涉及视觉和语言信息的预训练任务中表现出色，使它们对图像-文本检索和视觉问题回答等任务具有价值。然而，随着这些预训练的模型被广泛采用，它们引入了新的安全挑战，特别是以后门攻击的形式。

2、后门攻击涉及故意毒害机器学习模型的训练数据以诱发异常行为。现有技术已经调查了计算机视觉和自然语言处理模型中的后门攻击，但对其对多模式模型的影响关注有限，这些模型依靠来自多个输入源的信息来执行复杂的任务，随着其复杂性的增加，其对后门攻击的脆弱性也在增加。

技术实现思路

1、本专利技术所要解决的问题是：提供一种隐藏的多触发多模态后门攻击方法，在不影响正常数据多模态模型性能的情况下，成功执行后门攻击，提高攻击成功率。

2、本专利技术采用如下技术方案：

3、一种隐藏的多触发多模态后门...

【技术保护点】

1.一种隐藏的多触发多模态后门攻击方法，其特征在于，该方法包括：

2.如权利要求1所述的一种隐藏的多触发多模态后门攻击方法，其特征在于，步骤1所述生成文本触发器，为利用文本中的象形文字替换插入触发器来生成有毒的句子，用象形文字映射的等价物替换干净输入序列中的特定字符，被替换的字符被标记为“UNK”代表超出文本词汇表的未知字符，所述“UNK”是明确的异常情况信号，由此产生的句子为有毒句子，所述有毒句子保持了可读性，但失去了部分语义。

3.如权利要求1所述的一种隐藏的多触发多模态后门攻击方法，其特征在于，步骤1所述生成图片触发器，使用预先训练好的编码器-解码器网络，为...

【技术特征摘要】

1.一种隐藏的多触发多模态后门攻击方法，其特征在于，该方法包括：

2.如权利要求1所述的一种隐藏的多触发多模态后门攻击方法，其特征在于，步骤1所述生成文本触发器，为利用文本中的象形文字替换插入触发器来生成有毒的句子，用象形文字映射的等价物替换干净输入序列中的特定字符，被替换的字符被标记为“unk”代表超出文本词汇表的未知字符，所述“unk”是明确的异常情况信号，由此产生的句子为有毒句子，所述有毒句子保持了可读性，但失去了部分语义。

3.如权利要求1所述的一种隐藏的多触发多模态后门攻击方法，其特征在于，步骤1所述生成图片触发器，使用预先训练好的编码器-解码器网络，为基于深度神经网络dnn的图像隐写术创建图片触发器，所述图片触发器是添加到包含不可见目标标记的代表性字符串中的额外噪音，使用目标字符串作为嵌入触发器。

4.如权利要求3所述的一种隐藏的多触发多模态后门攻击方法，其特征在于，步骤1所述的图片触发器，方法包括：

5.如权利要求4...

【专利技术属性】
技术研发人员：周璐，李治城，李丕绩，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人