当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于神经网络可解释性的文本分类方法技术

技术编号:24331212 阅读:62 留言:0更新日期:2020-05-29 19:40
本发明专利技术涉及一种基于神经网络可解释性的文本分类方法,该方法利用训练完成的文本分类模型,对输入的文本信息进行分类,所述的文本分类模型的训练步骤包括:S1)获取训练数据,训练得到待增强的文本分类模型;S2)通过神经网络解释方法对训练数据中的词语进行排序;S3)按照排序顺序,依次对各词语添加扰动;S4)在最小化扰动的约束条件下生成对抗样本,并获取对抗样本的生成成功率;S5)判断生成成功率是否低于设定阈值,若是,则完成训练并输出该文本分类模型,若否,则执行步骤S6);S6)将对抗样本加入当前训练数据作为新的训练数据,并返回执行步骤S1),与现有技术相比,本发明专利技术具有鲁棒性高等优点。

【技术实现步骤摘要】
一种基于神经网络可解释性的文本分类方法
本专利技术涉及深度学习技术的自然语言处理领域,尤其是涉及一种基于神经网络可解释性的文本分类方法。
技术介绍
文本分类是指根据预定义的分类体系或分类标准将未标记的文本分类至其中的某一个或几个类别中。早期的分类技术主要包括基于规则模版的方法与基于机器学习的方法,近年来,随着深度学习的快速发展,基于神经网络的文本分类模型,例如FastText、TextCNN、BERT等,已经成为解决该类问题的主流方法。随着文本分类模型被广泛部署于各种实际应用,模型的鲁棒性也开始受到越来越多的关注。由于神经网络复杂的内部运算机制以及训练数据的分布上存在的天然偏置,如果在原输入样本中添加细微的、难以分辨的扰动,生成的样本可能诱导模型产生完全不同的预测结果,这个过程被称为对抗攻击(AdversarialAttack),这些扰动后的样本被称为对抗样本(AdversarialExamples)。对抗样本的存在对模型的安全性产生了巨大威胁。尽管已经有一些研究者开始关注文本分类模型的对抗样本,然而,当前研究尚未深入结合神经网络的可解释性问题。可解释性是指用人类可理解的方式直观展示模型的决策过程,从而深刻揭示输入变量与预测结果之间的联系,为模型调优、错误发现、预测结果的解释等提供依据。中国专利CN201910729584.9公开了一种基于可解释性对抗文本的对抗训练方法,但是其只适用于RNN模型,没有利用神经网络解释方法,其可解释性只在于生成的样本扰动方向合理,同时在添加扰动和对抗训练过程中,均采用单一的方法,无法有效提高模型的鲁棒性。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种鲁棒性强的基于神经网络可解释性的文本分类方法。本专利技术的目的可以通过以下技术方案来实现:一种基于神经网络可解释性的文本分类方法,该方法利用训练完成的文本分类模型,对输入的文本信息进行分类,所述的文本分类模型的训练步骤包括:S1)获取训练数据,训练得到待增强的文本分类模型;S2)通过神经网络解释方法对训练数据中的词语进行排序;S3)按照排序顺序,依次对各词语添加扰动;S4)在最小化扰动的约束条件下生成对抗样本,并获取对抗样本的生成成功率;S5)判断生成成功率是否低于设定阈值,若是,则完成训练并输出该文本分类模型,若否,则执行步骤S6);S6)将对抗样本加入当前训练数据作为新的训练数据,并返回执行步骤S1)。进一步地,所述的步骤S2)中,神经网络解释方法对词语按照对模型当前预测结果的影响程度进行定量描述,并按照逆序排序。优选地,所述的神经网络解释方法包括敏感度分析、基于一阶泰勒展开的显著性分析、留一法和层级间相关性传播。进一步地,所述的步骤S3)中,对词语添加扰动的方法包括词语级别的扰动方法和/或字符级别的扰动方法。更进一步地,所述的词语级别的扰动方法包括以下步骤:S301)获取输入词语;S302)获取数据集相关的词汇表,并在词汇表中搜索同义词;S303)利用Annoy算法挖掘向量空间中距离最接近的多个词语;S304)利用spacy工具匹配每个词语与输入词语的词性;S305)选取距离最接近且与输入词语词性相同的词语,作为目标词语输出。更进一步地,所述的字符级别的扰动方法通过增加、删除和/或更改输入词语中的字符,生成训练数据集词汇表之外的OOV词语。优选地,所述的约束条件包括通过原输入词语与添加扰动后词语之间的余弦相似度、词移距离、雅卡尔距离或莱文斯坦距离。进一步地,所述的步骤S4)中,通过贪婪搜索方法或集束搜索方法,生成满足约束条件的对抗样本。更进一步地,所述的贪婪搜索方法按照排序,依次将满足约束条件的扰动词语输入待增强的文本分类模型,最终得到对模型预测结果影响最大的扰动词语,作为对抗样本。更进一步地,所述的集束搜索方法按照排序,依次选取多个满足约束条件的扰动词语作为样本,输入待增强的文本分类模型,最终得到对模型预测结果影响最大的一组词语,作为对抗样本。与现有技术相比,本专利技术具有以下优点:1)本专利技术综合考虑了基于神经网络的各种解释方法,生成充分暴露数据偏置的对抗样本,并利用数据扩充(DataAugmentation)与对抗训练(AdversarialTraining)的思想,利用生成的对抗样本增强原训练数据,重新训练文本分类模型,避免其继续受到产生于类似分布的对抗样本的攻击,提高模型的鲁棒性;2)充分利用近年来深度学习领域涌现出的模型可解释性方法度量词的重要性来定位对分类结果影响最大的输入变量,可以定位对当前预测结果影响最大的输入文本,并引入数据盲点,从而生成高成功率的对抗样本,其次,这些精心设计的对抗样本充分暴露了原训练集存在的偏置问题,可以有效增强模型的鲁棒性;3)对输入变量施加人眼难以分辨的扰动,诱导文本分类模型产生错误的预测结果,扰动方法包括基于同义词替换的词语级别的扰动方法以及基于增删改的字符级别的扰动方法,适用于包括中文、英文在内的多种语言;4)通过贪婪搜索(GreedySearch)或集束搜索(BeamSearch)算法,在最小化扰动的约束条件下生成攻击样本,在给定约束条件下,将攻击算法生成对抗样本的成功率作为度量文本分类模型鲁棒性的评价指标,评价结果更加客观有效;5)通过各步骤的迭代不断提高模型鲁棒性,直到攻击算法的成功率低于某一设定阈值,保证模型鲁棒性满足要求;6)本方法适用于任何基于深度学习方法训练的文本分类模型。附图说明图1为本专利技术方法的流程图;图2为词语级别扰动方法的流程图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。显然,所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本专利技术保护的范围。实施例本专利技术提出了一种基于神经网络可解释性的文本分类模型鲁棒性增强方法。本方法利用自然语言处理领域中深度学习模型的解释方法,定量化度量输入词语对分类结果的影响程度,并据此设计面向文本分类模型的攻击方法;攻击方法生成的对抗样本将被加入至原训练样本中,共同参与模型训练,以提高模型的鲁棒性,适用于基于深度学习方法训练的文本分类模型。参照图1所示的流程图,本专利技术包含以下步骤:(1)获取训练数据,该训练数据可能为原始的训练数据,也可能为经过迭代后,包含对抗样本的增强训练数据。(2)在训练数据上训练基于神经网络的文本分类模型,作为鲁棒性待增强的文本分类模型。(3)利用可解释性方法定量化描述训练数据中每个词语对模型当前预测结果的影响程度,并对结果以逆序排序。可解释性方法为神经网络解释方法,包括敏感度分析SensitivityAnalysis、基于一阶泰勒展开的显著性分析本文档来自技高网
...

【技术保护点】
1.一种基于神经网络可解释性的文本分类方法,其特征在于,该方法利用训练完成的文本分类模型,对输入的文本信息进行分类,所述的文本分类模型的训练步骤包括:/nS1)获取训练数据,训练得到待增强的文本分类模型;/nS2)通过神经网络解释方法对训练数据中的词语进行排序;/nS3)按照排序顺序,依次对各词语添加扰动;/nS4)在最小化扰动的约束条件下生成对抗样本,并获取对抗样本的生成成功率;/nS5)判断生成成功率是否低于设定阈值,若是,则完成训练并输出该文本分类模型,若否,则执行步骤S6);/nS6)将对抗样本加入当前训练数据作为新的训练数据,并返回执行步骤S1)。/n

【技术特征摘要】
1.一种基于神经网络可解释性的文本分类方法,其特征在于,该方法利用训练完成的文本分类模型,对输入的文本信息进行分类,所述的文本分类模型的训练步骤包括:
S1)获取训练数据,训练得到待增强的文本分类模型;
S2)通过神经网络解释方法对训练数据中的词语进行排序;
S3)按照排序顺序,依次对各词语添加扰动;
S4)在最小化扰动的约束条件下生成对抗样本,并获取对抗样本的生成成功率;
S5)判断生成成功率是否低于设定阈值,若是,则完成训练并输出该文本分类模型,若否,则执行步骤S6);
S6)将对抗样本加入当前训练数据作为新的训练数据,并返回执行步骤S1)。


2.根据权利要求1所述的一种基于神经网络可解释性的文本分类方法,其特征在于,所述的步骤S2)中,神经网络解释方法对词语按照对模型当前预测结果的影响程度进行定量描述,并按照逆序排序。


3.根据权利要求2所述的一种基于神经网络可解释性的文本分类方法,其特征在于,所述的神经网络解释方法包括敏感度分析、基于一阶泰勒展开的显著性分析、留一法和层级间相关性传播。


4.根据权利要求1所述的一种基于神经网络可解释性的文本分类方法,其特征在于,所述的步骤S3)中,对词语添加扰动的方法包括词语级别的扰动方法和/或字符级别的扰动方法。


5.根据权利要求4所述的一种基于神经网络可解释性的文本分类方法,其特征在于,所述的词语级别的扰动方法包括以下步骤:
S301)获取输入词语;
...

【专利技术属性】
技术研发人员:杜庆峰徐锦程倪奕玮孙清志
申请(专利权)人:同济大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1