基于知识增强BERT的字粒度中文语义近似对抗样本生成方法技术

技术编号:35517132 阅读:26 留言:0更新日期:2022-11-09 14:34
基于知识增强BERT的字粒度中文语义近似对抗样本生成方法包括:将预处理后的文本数据集按照比例划分为训练集、验证集和测试集,将训练集中的数据输入目标模型中得到目标中文文本分类模型;生成字重要度列表;训练知识增强BERT模型;使用知识增强BERT模型,依次为字重要度列表中的每个字符生成一个候选字列表;选取一个候选字列表中的字符替换当次选取的候选字列表对应的字重要度列表中的字符生成一个当次对抗样本,使用当次对抗样本攻击目标中文文本分类模型。本方法通过设计自动化的对抗样本生成方法,使生成的语义近似对抗样本有较好的可读性和较高的攻击成功率,以达到针对不同种类的中文文本分类模型生成高质量中文语义近似对抗样本的目的。语义近似对抗样本的目的。语义近似对抗样本的目的。

【技术实现步骤摘要】
基于知识增强BERT的字粒度中文语义近似对抗样本生成方法


[0001]本专利技术涉及信息安全
,具体涉及一种基于知识增强BERT的字粒度中文语义近似对抗样本生成方法。

技术介绍

[0002]随着深度学习的不断发展,基于深度神经网络的自然语言处理技术在文本分类、机器翻译、对话系统等任务上超越了传统基于统计的机器学习方法。目前针对自然语言处理问题的深度学习模型主要有两种,第一种方法是将CNN、LSTM等深度学习模型与Word2vec、Glove等词向量技术结合,更好地挖掘文本中局部和整体时序等特征;另一种方法是用以BERT为代表的的预训练语言模型,BERT模型使用transformer作为基本架构,使用海量文本数据无监督地进行训练,拥有庞大的参数量和更好的文本理解能力,在多个自然语言处理任务中超越已有方法,成为新的里程碑。
[0003]但是研究人员发现,由于深度神经网络固有的局部线性和数据高维度等特点,基于深度学习的自然语言处理技术与其他深度学习算法一样,也面临着对抗样本的威胁。对抗样本是指在原有样本上人为精心改造的一段输入,该输本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于知识增强BERT的字粒度中文语义近似对抗样本生成方法,其特征在于,所述方法包括:步骤一:对文本数据集进行预处理:对文本数据集进行分词,根据停用词表过滤停用词;将预处理后的文本数据集按照比例划分为训练集、验证集和测试集;将所述训练集中的文本数据训练生成文本词向量,将所述文本词向量输入到目标模型中,经训练后得到目标中文文本分类模型;步骤二:将测试集中的文本数据作为原语句,依次删除原语句中每个字符来确定原语句中每个字符的重要度,对所述重要度排序得到字重要度列表;步骤三:将先验知识融入BERT模型得到知识增强BERT模型;步骤四:使用通过步骤三得到的知识增强BERT模型,依次为所述字重要度列表中的每个字符生成一个候选字列表;步骤五:选取一个候选字列表中的字符替换当次选取的候选字列表对应的字重要度列表中的字符生成一个当次对抗样本,使用当次对抗样本攻击步骤一中训练得到的目标中文文本分类模型;步骤六:若所述目标中文文本分类模型的输出发生改变,则攻击成功,以当次对抗样本作为最终对抗样本;若所述目标中文文本分类模型的输出不发生改变,则攻击不成功,将当前选取的字符排除出字重要度列表后,执行步骤五;其中,所述步骤四具体包括以下步骤:将字重要度列表中的每个字符依次替换为知识增强BERT模型中的特殊标记[MASK],并在原语句的开始和结尾处加入特殊分类记号[CLS]和停止记号[SEP],把原语句变为如下形式:S
lm
=[CLS],c
’1,...,c

j
‑1,[MASK],c

j+1
,

[SEP];其中,S
lm
为改变后的句子,其中,c

j
为字重要度列表中第j个字符;将S
lm
输入到知识增强BERT模型中,知识增强BERT模型根据上下文语义对特殊标记[MASK]处的字符进行预测,取预测出的前k个字符生成初次候选字符列表;对初次候选字符列表中的每个字符使用其对应的word2vec向量计算...

【专利技术属性】
技术研发人员:郑海
申请(专利权)人:方盈金泰科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1