一种标签一致的文本后门攻击方法技术

技术编号:31982823 阅读:47 留言:0更新日期:2022-01-20 01:57
本发明专利技术公开了一种标签一致的文本后门攻击方法,该方法为:触发词生成:针对目标数据集,通过义原库生成触发词;利用对抗扰动的方法和基于黑盒条件的隐藏关键字方法扰动原始输入样本;通过基于义原的触发词替换方法,将生成的触发词添加到扰动后的句子中生成中毒样本,并用中毒数据集训练目标模型;推理阶段通过义原替换的方法将触发词添加到测试句子上,从而诱骗目标模型预测目标类别。本发明专利技术设计了两种干扰原始输入的方法,生成了具有与原始标签相同标签的高质量文本,使目标模型更容易学习到触发器;其次,在触发器的生成和添加部分,提出基于义原的触发器的生成和添加方法;具有高攻击成功率,并产生高质量的攻击样本。本。本。

【技术实现步骤摘要】
一种标签一致的文本后门攻击方法


[0001]本专利技术属于人工智能安全
,特别是一种标签一致的文本后门攻击方法。

技术介绍

[0002]深度神经网络模型容易受到后门攻击的威胁,后门攻击的目的是将隐藏的后门嵌入深度神经网络(DNNs),使感染模型在干净样本上表现良好,而当隐藏的后门被攻击者定义的触发词激活时,它的预测被恶意改变。传统的后门攻击包括感染模型和攻击两部分。首先,感染模型—感染模型是将后门功能编码到模型权重的部分,目前基于训练数据中毒的方法是感染目标模型最直接和常见的方法。第二,攻击—攻击者将触发词添加到目标输入并将其提交给模型,模型将预测该输入到目标标签。
[0003]后门攻击所暴露的风险有两个方面:(1)中毒样本在训练集中的源标签往往与目标标签不同,换句话说,中毒的样品似乎贴错了标签。当有人检查训练集时,这种有毒样本很容易被识别;(2)几乎不可能在文本中添加一个真正的无法检测的触发词,因为文本是离散的,一个小小的扰动就可以给原始输入带来显著的变化,并且,文本的语义信息与组成文本的单词有很强的相关性,因此,简单的替换、添本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种标签一致的文本后门攻击方法,其特征在于,包括以下步骤:步骤1、触发词生成:针对目标数据集,通过义原库生成触发词;步骤2、干扰原始输入:利用对抗扰动的方法和基于黑盒条件的隐藏关键字方法扰动原始输入样本;步骤3、中毒和推断:通过基于义原的触发词替换方法,将生成的触发词添加到扰动后的句子中生成中毒样本,并用中毒数据集训练目标模型;推理阶段通过义原替换的方法将触发词添加到测试句子上,从而诱骗目标模型预测目标类别。2.根据权利要求1所述的标签一致的文本后门攻击方法,其特征在于,步骤1所述的触发词生成,采用基于义原的触发词生成方法,具体步骤如下:步骤1.1:利用义原库找到满足以下条件的触发词:本身在数据集中出现的频率低于设定值,但和它具有相同义原的其他词在数据集中出现次数尽可能地多;单词的义原用于描述单词的含义,带有相同义原注解的单词具有相同的含义,并且能够彼此替代;步骤2:从触发词表中排除情感词。3.根据权利要求1所述的标签一致的文本后门攻击方法,其特征在于,步骤2所述的对抗扰动的方法,具体如下:为每个单词生成替换词空间,利用替换词替换原始文本中的单词,根据模型返回的置信度信息生成对抗样本。4.根据权利要求1所述的标签一致的文本后门攻击方法,其特征在于,步骤2所述的基于黑盒条件的隐藏关键字方法,是指对于输入文本s=[ω0,ω1,

],隐藏s中影响模型F(
·
)分类结果的ω,ω表组成样本s的单词;产生一批处于模型分类边界的样本,具体如下:首先,确定句子中候选关键单词的排名;然后,根据句子长度自适应地设置隐藏单词的数量;最后,根据单词重要性从大到小...

【专利技术属性】
技术研发人员:邵堃刘辉杨俊安张雨呼鹏江李小帅
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1