一种基于词性权重的黑盒对抗样本生成方法技术

技术编号：36535315 阅读：14 留言：0更新日期：2023-02-01 16:20

一种基于词性权重的黑盒对抗样本生成方法，首先，利用词性标注方法对文本进行权重分配，合并及处理。其次，依据分配策略对文本进行权重分配，按照攻击强度选择权重较高的目标词汇，再利用多种拼音重构策略，对目标字词进行相近替换生成多个备选对抗样本。最后，依据对抗前后的相似度选取分数最高的结果作为最终对抗样本。本发明专利技术还提供了一种模型鲁棒性检测系统，基于平均成功率评测目标模型的鲁棒性。本发明专利技术适用于中文自然语言处理领域，是一种基于黑盒的样本生成方法及模型测试系统，不受限于数据集的种类、大小以及目标模型的参数和结果。果。果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于词性权重的黑盒对抗样本生成方法

[0001]本专利技术涉及自然语言处理和AI安全领域，具体涉及一种基于词性权重的黑盒对抗样本生成方法。

技术介绍

[0002]如今，基于深度学习网络的机器学习方法已被广泛的应用于许多领域，同时，深度学习网络也面临着对抗样本攻击的威胁。对抗样本是指在正常的样本中通过有目的性的添加少量扰动信息，使得模型系统出现误判。在自然语言处理领域中，由于文字的特殊性，使得相关语言模型在遭受对抗样本攻击时都表现出较大的不稳定性，例如在内容检测应用中，不法者利用对抗样本来躲避平台监管，从而发布黄色、赌博、暴恐信息等违规内容和广告，模型的失效使得相关黑灰产业得以生存。尤其在中文领域内，各个主流检测模型和分类模型甚至难以承受样本微小变化带来的扰动。对深度学习模型具有威胁性的对抗样本生成过程的研究同样重要，通过生成对抗样本的方式来提高语言模型的鲁棒性，是一种常见的有效方式，在模型的实际应用中具有至关重要的意义。
[0003]通过获取目标模型内部参数的对抗样本生成方法称为白盒对抗攻击测试，反之，只需获取目标模型的结果或不需要获取模型结果的方法称为黑盒对抗攻击测试。大多数场景下我们无法获取目标模型内部参数甚至无法得知模型结果的情况下，基于黑盒无针对性的对抗样本生成方法，是语言客观规律的体现，能有效测试模型的鲁棒性。
[0004]然后，现有的语言模型对抗样本生成方法无法满足这一条件。首先目前主流的文本对抗样本生成方法主要针对英文，应用于中文的较少。其次，在中文对抗样本生成方法中，大多基于白盒攻...

【技术保护点】

【技术特征摘要】
1.一种基于词性权重的黑盒对抗样本生成方法，其特征在于，包括以下步骤：(1)将原始文本样本做字符级处理，利用分词工具进行词性标注，得到词性标注结果；(2)去除停用词及其词性标注结果，并合并相关词汇。(3)构建词汇分数计算模型，为样本中各词汇分配权重，并记录词汇所在原始样本的位置信息；(4)选择目标词汇，按照权重分数对样本中各词汇进行排序，并按照攻击强度选取攻击词汇；(5)构建多种攻击策略并生成目标对抗词汇候选表；(6)构建对抗样本选择器，基于设计的字符串相似度算法计算原始样本S和对抗样本的相似度，取相似度最高的结果作为最终的对抗样本A；(7)基于生成的对抗样本评测目标模型的鲁棒性。2.根据权利要求1所述的基于词性权重的黑盒对抗样本生成方法，其特征在于，步骤(1)包括：针对单个文本样本S1，基于正则表达式筛选保留样本中的汉字、数字及字母得到处理样本S2，再利用python开源库jieba工具对样本进行分词和词性标注，基于词性列表得到样本中各字词的词性结果S3；步骤(1)所述的词性标注结果列表包括：形容词：a，Ag，Ad，An；副词：d；名词：n，Nr，Ns，Nt，Nz；动词：v，Vd，Vn；其他：un。其中，形容词、副词、名词、动词为主要关注词汇，其余词性统一标注为un。3.根据权利要求1所述的基于词性权重的黑盒对抗样本生成方法，其特征在于，步骤(2)包括为消除不相关词对结果的影响，基于开源哈工大停用词表去除标注结果S3中的停用词及对应词性，再合并连续相同词性的词汇，得到样本S4。4.根据权利要求1所述的基于词性权重的黑盒对抗样本生成方法，其特征在于，步骤(3)包括基于得到的词性标注结果S4，按照评分策略对每一个词汇分配权重w，并记录每个词汇所在原始样本的位置索引信息p，权重分数与位置构成词汇二元组特征t(w，p)；所述的评分策略为：标准词性权重为5，次要词性权重为4，即：形容词中词性a的权重为5，Ag、Ad、An权重为4，副词中词性d权重为5，名词中词性n权重为5，Nr、Ns、Nt、Nz权重为4，动词中词性v权重为5，Vd、Vn权重为4，其他词性权重为3。5.根据权利要求1所述的基于词性权重的黑盒对抗样本生成方法，其特征在于，步骤(4)包括按照权重分数对样本S4中各词汇进行排序，并按照攻击强度选取攻击词汇，攻击强度ST表示攻击面积的大小，分为四个等级，选取攻击词汇W定义如下：其中，L表示计算样本长度，即样本包含词汇的个数，INT(X)表示取整数部分，X表示攻击长度，sort(S4)表示对样本S4进行排序，P为选取函数，取排序样本的...

【专利技术属性】
技术研发人员：洪榛，吴超飞，刘利松，余震，夏海生，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人