一种文本对抗样本生成方法、设备及介质技术

技术编号:36557270 阅读:29 留言:0更新日期:2023-02-04 17:12
本发明专利技术公开了一种文本对抗样本生成方法、设备及介质,包括基于文本分类模型和雅可比矩阵对文本数据集进行预处理后的文本进行计算定位关键词,构建替换语料库,将关键词与所述替换语料库进行比对,若匹配则采用替换语料库中的替换案例进行替换生成对抗样本;若不匹配则采用预训练模型生成该关键词的替换候选词,采用贪心算法从替换候选词中选取替换词对关键词进行替换并生成对抗样本。本发明专利技术提供了一种文本对抗样本生成方法,使用预训练模型生成符合当前语境上下文的多种替换策略和改进现有的替换词搜索方法,解决现有文本白盒攻击中存在的文本对抗样本质量不足和效率太低的问题。题。题。

【技术实现步骤摘要】
一种文本对抗样本生成方法、设备及介质


[0001]本专利技术涉及人工智能信息安全
,具体涉及一种文本对抗样本生成方法、设备及介质。

技术介绍

[0002]在互联网时代,随着海量数据积累、计算能力升级以及机器学习框架不断创新进化,深度神经网络(Deep Neural Networks,DNNs)在解决计算机视觉、语音识别、自然语言处理(Natural Language Processing,NLP)等领域取得巨大成功,人工智能正在走向人类的历史性时刻。现如今,大量的深度学习技术日趋成熟,并逐步地应用于各行各业,极大地促进深度学习领域产业化发展。在自然语言处理领域,基于深度学习的文本分类、机器翻译、智能问答等任务得到迅猛发展,形成了情感分析、有害内容检测、翻译助手、智慧客服等一系列具有现实意义的应用。然而,尽管深度神经网络模型在各个领域都有着出色的表现,但其自身也存在许多安全问题。据机器学习和安全领域的研究表明,在面对精心构造的恶意对抗性样本时,即使表现非常出色的深度神经网络模型也显现出极大的脆弱性。这类攻击在合法输入中通过添加精心设计且难以察觉的扰动,愚弄模型做出错误预测的同时又不会影响人的判断。
[0003]常用对抗攻击方法根据是否了解模型的具体信息划分为:白盒攻击和黑盒攻击。白盒攻击:能够完全访问目标模型,知道模型的完整信息,包括输入输出、模型结构、参数、损失函数、激活函数等,攻击者可以通过使用目标模型的梯度来精心设计对抗样本,通常这种攻击非常有效,难以防御;黑盒攻击:不清楚目标模型的体系结构,无法访问模型的结构、参数等,只能获取模型的输入输出,通过采用不断的查询和观察目标模型的输出来产生最优的对抗样本。白盒攻击根据模型的具体结构生成对抗样本,相较于黑盒攻击更具有针对性,能够发现模型存在的不足,使用对抗样本对模型进行对抗性训练可以有效地提高模型的鲁棒性,对人工智能应用实际落地有着巨大的推动作用。
[0004]在白盒场景中,现有的攻击方法基本都存在对抗样本质量不足的问题,如字符级攻击替换单词的某个或某几个字符会出现严重的语法错误,单词级攻击使用同义词对关键词进行替换,但是往往不符合当前上下文的语境,容易被人类所察觉;并且,数据集中存在大量重复关键词,每次出现都需要再次生成替换候选词,存在效率太低的问题。

技术实现思路

[0005]本申请所要解决的技术问题是在白盒场景中,现有的攻击方法基本都存在对抗样本质量不足,字符级攻击替换单词会出现严重的语法错误,单词级攻击不符合当前上下文的语境,使得攻击容易被人类所察觉,目的在于提供一种文本对抗样本生成方法、设备及介质,通过文本分类模型和雅可比矩阵定位关键词,使用替换语料库中的替换策略或预训练模型进行预训练生成符合当前语境上下文的多种替换策略对关键词进行替换并生成对抗样本从而解决了现有文本白盒攻击中存在的对抗样本质量不足和效率太低的问题。
[0006]本专利技术通过下述技术方案实现:
[0007]本专利技术第一方面提供了一种文本对抗样本生成方法,包括
[0008]获取文本数据集,并对所述文本数据集进行预处理,得到文本;
[0009]基于文本分类模型和雅可比矩阵,对文本进行计算,得到文本中词语的贡献度,通过词语的贡献度定位关键词;
[0010]构建替换语料库,将所述关键词与所述替换语料库进行比对;
[0011]若所述关键词与所述替换语料库匹配,采用替换语料库中的替换案例进行替换生成对抗样本;
[0012]若所述关键词与所述替换语料库不匹配,则采用预训练模型生成该关键词的替换候选词,采用贪心算法从替换候选词中选取替换词对关键词进行替换并生成对抗样本。
[0013]上述技术方案中,通过文本分类模型对文本的雅可比矩阵进行计算得到词语的贡献度,通过词语的贡献度定位关键词,词语的贡献度即词语的重要程度,将重要程度高的词语作为关键词并进行替换有助于提升对抗样本的成功率。
[0014]通过使用成功案例库来构建替换语料库,替换语料库中存在具有相同关键词的候选词,在采用预训练模型生成替换候选词之前,先将关键词与替换语料库中进行比对,若存在相同关键词的候选词则采用替换语料库中的成功案例,从而减小整个攻击系统的开销提升了生成对抗样本的效率。
[0015]采用预训练模型生成该关键词的替换候选词,并采用贪心算法从替换候选词中选取替换词对关键词进行替换生成对抗样本。通过预训练模型得到的替换候选词是进行预训练符合上下文语境的词语,由于候选替换词是对整个词语进行替换故不存在拼写等语法错误,从而解决了现有技术中字符级攻击和单词级攻击存在语法错误、不符合上下文语境的问题,提升了对抗样本的质量,使得攻击不易被察觉。再采用贪心算法从替换候选词中选取最贴近于上下文语境的替换词对关键词的替换生成的对抗样本提升了对抗样本的质量,使得攻击不易被人类所察觉。
[0016]在一种可选实施例中,基于文本分类模型和雅可比矩阵,对文本进行计算之前还包括:
[0017]采用文本数据集对文本分类模型和预训练模型进行训练,使文本分类模型和预训练模型学习所述文本数据集中文本的序列特征。
[0018]在一种可选实施例中,采用预训练模型生成该关键词的替换候选词的方法如下:
[0019]将文本中的关键词用[MASK]标记进行掩码;
[0020]在预训练模型中引入掩码语言任务,基于完形填空的特性用掩码语言任务生成掩码的替换候选词。
[0021]在一种可选实施例中,将文本中的关键词用[MASK]标记进行掩码还包括在关键词的左侧插入[MASK]标记或在关键词的右侧插入[MASK]标记。
[0022]在一种可选实施例中,采用贪心算法从替换候选词中选取替换词的方法如下:
[0023]A、计算使用替换候选词替换前文本的置信值以及使用替换候选词替换后文本的置信值;
[0024]B、根据步骤A使用替换候选词替换前后文本置信值的变化选择最优候选词;
[0025]C、使用最优候选词替换掩码获得扰动文本S


[0026]D、使用余弦相似度计算扰动文本S

与未替换之前的文本S的语义相似性,若扰动文本S

的语义相似性在阈值之上,则对抗样本生成成功;若扰动文本S

的语义相似性在阈值之下,则重复步骤A直至扰动文本S

的语义相似性在阈值之上或所有替换候选词使用完毕。
[0027]在一种可选实施例中,使用余弦相似度计算扰动文本S

与未替换文本S之间的语义相似性的方法如下:
[0028]sim(S,S

)≥∈
[0029]其中,sim(
·
,
·
)为余弦相似度计算公式,S为未替换文本,S

为扰动文本,∈为阈值。
[0030]在一种可选实施例中,通过文本分类模型对所述文本的雅可比矩阵计算词语的贡献度的方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本对抗样本生成方法,其特征在于,包括如下步骤:获取文本数据集,并对所述文本数据集进行预处理,得到文本;基于文本分类模型和雅可比矩阵对文本进行计算,得到文本中词语的贡献度并通过词语的贡献度定位关键词;使用替换成功的案例构建替换语料库,将所述关键词与所述替换语料库的案例进行比对;若所述关键词与所述替换语料库的案例匹配,采用替换语料库中的替换案例进行替换生成对抗样本;若所述关键词与所述替换语料库的案例不匹配,则采用预训练模型生成该关键词的替换候选词,采用贪心算法从替换候选词中选取替换词对关键词进行替换并生成对抗样本。2.根据权利要求1所述的一种文本对抗样本生成方法,其特征在于,基于文本分类模型和雅可比矩阵,对文本进行计算之前还包括:采用文本数据集对文本分类模型和预训练模型进行训练,使文本分类模型和预训练模型学习所述文本数据集中文本的序列特征。3.根据权利要求1所述的一种文本对抗样本生成方法,其特征在于,采用预训练模型生成该关键词的替换候选词的方法如下:将文本中的关键词用[MASK]标记进行掩码;在预训练模型中引入掩码语言任务,基于完形填空的特性用掩码语言任务生成掩码的替换候选词。4.根据权利要求3所述的一种文本对抗样本生成方法,其特征在于,将文本中的关键词用[MASK]标记进行掩码还包括在关键词的左侧插入[MASK]标记或在关键词的右侧插入[MASK]标记。5.根据权利要求4所述的一种文本对抗样本生成方法,其特征在于,采用贪心算法从替换候选词中选取替换词的方法如下:A、计算使用替换候选词替换前文本的置信值以及使用替换候选词替换后文本的置信值;B、根据步骤A使用替换候选词替换前后文本置信值的变化选择最优候选词;C、使用最优候选词替换掩码获得扰动文本S

;D、使用余弦相似度计算扰动文本S

与未替换之前的文本S的语义相似性,若扰动文...

【专利技术属性】
技术研发人员:吴渝秦先进先兴平
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1