一种基于词性权重的黑盒对抗样本生成方法技术

技术编号:36535315 阅读:14 留言:0更新日期:2023-02-01 16:20
一种基于词性权重的黑盒对抗样本生成方法,首先,利用词性标注方法对文本进行权重分配,合并及处理。其次,依据分配策略对文本进行权重分配,按照攻击强度选择权重较高的目标词汇,再利用多种拼音重构策略,对目标字词进行相近替换生成多个备选对抗样本。最后,依据对抗前后的相似度选取分数最高的结果作为最终对抗样本。本发明专利技术还提供了一种模型鲁棒性检测系统,基于平均成功率评测目标模型的鲁棒性。本发明专利技术适用于中文自然语言处理领域,是一种基于黑盒的样本生成方法及模型测试系统,不受限于数据集的种类、大小以及目标模型的参数和结果。果。果。

【技术实现步骤摘要】
一种基于词性权重的黑盒对抗样本生成方法


[0001]本专利技术涉及自然语言处理和AI安全领域,具体涉及一种基于词性权重的黑盒对抗样本生成方法。

技术介绍

[0002]如今,基于深度学习网络的机器学习方法已被广泛的应用于许多领域,同时,深度学习网络也面临着对抗样本攻击的威胁。对抗样本是指在正常的样本中通过有目的性的添加少量扰动信息,使得模型系统出现误判。在自然语言处理领域中,由于文字的特殊性,使得相关语言模型在遭受对抗样本攻击时都表现出较大的不稳定性,例如在内容检测应用中,不法者利用对抗样本来躲避平台监管,从而发布黄色、赌博、暴恐信息等违规内容和广告,模型的失效使得相关黑灰产业得以生存。尤其在中文领域内,各个主流检测模型和分类模型甚至难以承受样本微小变化带来的扰动。对深度学习模型具有威胁性的对抗样本生成过程的研究同样重要,通过生成对抗样本的方式来提高语言模型的鲁棒性,是一种常见的有效方式,在模型的实际应用中具有至关重要的意义。
[0003]通过获取目标模型内部参数的对抗样本生成方法称为白盒对抗攻击测试,反之,只需获取目标模型的结果或不需要获取模型结果的方法称为黑盒对抗攻击测试。大多数场景下我们无法获取目标模型内部参数甚至无法得知模型结果的情况下,基于黑盒无针对性的对抗样本生成方法,是语言客观规律的体现,能有效测试模型的鲁棒性。
[0004]然后,现有的语言模型对抗样本生成方法无法满足这一条件。首先目前主流的文本对抗样本生成方法主要针对英文,应用于中文的较少。其次,在中文对抗样本生成方法中,大多基于白盒攻击生成,即需要获取目标模型内部参数,基于黑盒攻击的方法中,大多也都需要获取模型结果,从而针对性的生成对抗样本,属于半黑盒测试。此外,在文章《面向中文文本倾向性分类的对抗样本生成方法》中,基于TFIDF方法设计了词语重要性算法,这是一种词汇统计方法,依据出现频次来判断词语重要性,但是受制于训练语料的种类和大小,无法体现语言客观性,生成的样本较大改变了原意,较原样本相比可读性差,应用方面也不具有广泛性。

技术实现思路

[0005]本专利技术提出了一种基于词性权重的黑盒对抗样本生成方法,能生成无针对性的针对中文的黑盒对抗样本,有效测试模型鲁棒性。
[0006]本专利技术解决其技术问题所采用的技术方案是:
[0007]一种基于词性权重的黑盒对抗样本生成方法,包括以下步骤:
[0008](1)将原始文本样本做字符级处理,利用分词工具进行词性标注,得到词性标注结果;
[0009](2)去除停用词及其词性标注结果,并合并相关词汇。
[0010](3)构建词汇分数计算模型,为样本中各词汇分配权重,并记录词汇所在原始样本
的位置信息;
[0011](4)选择目标词汇,按照权重分数对样本中各词汇进行排序,并按照攻击强度选取攻击词汇;
[0012](5)构建多种攻击策略并生成目标对抗词汇候选表;
[0013](6)构建对抗样本选择器,基于设计的字符串相似度算法计算原始样本S和对抗样本的相似度,取相似度最高的结果作为最终的对抗样本A;
[0014](7)基于生成的对抗样本评测目标模型的鲁棒性。
[0015]步骤(1)包括:针对单个文本样本S1,基于正则表达式筛选保留样本中的汉字、数字及字母得到处理样本S2,再利用python开源库jieba工具对样本进行分词和词性标注,基于词性列表得到样本中各字词的词性结果S3。
[0016]步骤(1)所述的词性标注结果列表包括:
[0017]形容词:a,Ag,Ad,An;
[0018]副词:d;
[0019]名词:n,Nr,Ns,Nt,Nz;
[0020]动词:v,Vd,Vn;
[0021]其他:un。
[0022]其中,形容词、副词、名词、动词为主要关注词汇,其余词性统一标注为un。
[0023]步骤(2)包括:为消除不相关词对结果的影响,基于开源哈工大停用词表去除标注结果S3中的停用词及对应词性,再合并连续相同词性的词汇,得到样本S4。
[0024]步骤(3)包括:基于得到的词性标注结果S4,按照评分策略对每一个词汇分配权重w,并记录每个词汇所在原始样本的位置索引信息p,权重分数与位置构成词汇二元组特征t(w,p)。
[0025]步骤(3)中,所述的评分策略为:标准词性权重为5,次要词性权重为4,即:形容词中词性a的权重为5,Ag、Ad、An权重为4,副词中词性d权重为5,名词中词性n权重为5,Nr、Ns、Nt、Nz权重为4,动词中词性v权重为5,Vd、Vn权重为4,其他词性权重为3。
[0026]步骤(4)包括按照权重分数对样本S4中各词汇进行排序,并按照攻击强度选取攻击词汇,攻击强度ST表示攻击面积的大小,分为四个等级,选取攻击词汇W定义如下:
[0027][0028]其中,L表示计算样本长度,即样本包含词汇的个数,INT(X)表示取整数部分,X表示攻击长度,sort(S4)表示对样本S4进行排序,P为选取函数,取排序样本的前X个元素。
[0029]步骤(5)包括:构建基于拼音的三种攻击策略,针对得到的攻击词汇表W中的每个词汇样本,基于插入和替换策略生成对抗词汇候选表,其中插入方式包括:单字词插入分为词前,词后方式,双字词为中间插入方式,三字及以上词为中间随机插入方式,插入位置Pi定义为:
[0030][0031]其中,Random表示区间内随机选择一个整数,n表示为攻击词汇的字符长度。
[0032]步骤(5)中,所述的基于拼音的三种攻击策略包括:
[0033](Ⅰ)基于python开源库拼音转换工具pypinyin将攻击词汇转换为无声调的拼音词汇表示;
[0034](Ⅱ)将转换后的拼音词汇取第一位首字母,作为攻击词汇的首字母简写表示;
[0035](Ⅲ)将转换后得拼音词汇基于开源拼音转汉字工具包hanzi2pinyin将拼音生成五个新词汇表示,若原攻击词汇存在于生成的五个新词中,则去除该词汇作为新词表,最后在新词表中随机选取词汇作为替换词汇表示。
[0036]步骤(6)包括:构建基于字符串相似度的对抗样本选择器,包括将生成的对抗词汇候选表中的各个词汇分别按照攻击词汇二元组t(w,p)替换到相应位置,排列组合后得到多个对抗样本,设计字符串相似度算法,并计算原始样本S和对抗样本的相似度,取相似度最大的结果作为最终的对抗样本A。
[0037]步骤(6)中,所述的设计字符串相似度算法公式如下:
[0038][0039]其中,Si和Di分别表示原攻击词汇和替换词汇第i个位置的字符,NUM表示对应位置字符相同的个数,L(S)为原样本的长度。
[0040]步骤(7)包括,依据攻击强度生成样本,测试模型的鲁棒性,鲁棒性评价指标为各攻击强度下的加权攻击成功率,攻击强度划分为四个等级(ST1

ST4),加权攻击成功率表示为:
[0041][00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于词性权重的黑盒对抗样本生成方法,其特征在于,包括以下步骤:(1)将原始文本样本做字符级处理,利用分词工具进行词性标注,得到词性标注结果;(2)去除停用词及其词性标注结果,并合并相关词汇。(3)构建词汇分数计算模型,为样本中各词汇分配权重,并记录词汇所在原始样本的位置信息;(4)选择目标词汇,按照权重分数对样本中各词汇进行排序,并按照攻击强度选取攻击词汇;(5)构建多种攻击策略并生成目标对抗词汇候选表;(6)构建对抗样本选择器,基于设计的字符串相似度算法计算原始样本S和对抗样本的相似度,取相似度最高的结果作为最终的对抗样本A;(7)基于生成的对抗样本评测目标模型的鲁棒性。2.根据权利要求1所述的基于词性权重的黑盒对抗样本生成方法,其特征在于,步骤(1)包括:针对单个文本样本S1,基于正则表达式筛选保留样本中的汉字、数字及字母得到处理样本S2,再利用python开源库jieba工具对样本进行分词和词性标注,基于词性列表得到样本中各字词的词性结果S3;步骤(1)所述的词性标注结果列表包括:形容词:a,Ag,Ad,An;副词:d;名词:n,Nr,Ns,Nt,Nz;动词:v,Vd,Vn;其他:un。其中,形容词、副词、名词、动词为主要关注词汇,其余词性统一标注为un。3.根据权利要求1所述的基于词性权重的黑盒对抗样本生成方法,其特征在于,步骤(2)包括为消除不相关词对结果的影响,基于开源哈工大停用词表去除标注结果S3中的停用词及对应词性,再合并连续相同词性的词汇,得到样本S4。4.根据权利要求1所述的基于词性权重的黑盒对抗样本生成方法,其特征在于,步骤(3)包括基于得到的词性标注结果S4,按照评分策略对每一个词汇分配权重w,并记录每个词汇所在原始样本的位置索引信息p,权重分数与位置构成词汇二元组特征t(w,p);所述的评分策略为:标准词性权重为5,次要词性权重为4,即:形容词中词性a的权重为5,Ag、Ad、An权重为4,副词中词性d权重为5,名词中词性n权重为5,Nr、Ns、Nt、Nz权重为4,动词中词性v权重为5,Vd、Vn权重为4,其他词性权重为3。5.根据权利要求1所述的基于词性权重的黑盒对抗样本生成方法,其特征在于,步骤(4)包括按照权重分数对样本S4中各词汇进行排序,并按照攻击强度选取攻击词汇,攻击强度ST表示攻击面积的大小,分为四个等级,选取攻击词汇W定义如下:其中,L表示计算样本长度,即样本包含词汇的个数,INT(X)表示取整数部分,X表示攻击长度,sort(S4)表示对样本S4进行排序,P为选取函数,取排序样本的...

【专利技术属性】
技术研发人员:洪榛吴超飞刘利松余震夏海生
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1