一种基于生成式多任务学习模型的文本分类方法技术

技术编号:22330188 阅读:23 留言:0更新日期:2019-10-19 12:17
本发明专利技术构建一种基于生成式多任务学习模型的文本分类方法,通过训练集根据多标签分类任务和层次分类任务交替对所述多任务分类模型进行解码,解码获得与编码时刻特征向量相关的当前时刻语义特征并进行训练;根据训练结果和真实标签集对多任务分类模型进行优化,获得优化多任务分类模型;将待测集中的数据输入上述优化多任务分类模型,分别获得分类标签从而完成分类;上述模型在训练过程中通过多任务机制构建了多标签分类模型与层次分类模型之间的语义关联性,因此可以增强两个子任务预测结果之间的语义关联,从而达到提升子任务分类性能目的。

【技术实现步骤摘要】
一种基于生成式多任务学习模型的文本分类方法
本专利技术属于自然语言处理文本分类
,尤其涉及一种基于生成式多任务学习模型的文本分类方法。
技术介绍
文本多标签分类和层次分类是在实际应用中经常需要解决的问题,也是文本分类任务重要的两个分支以及当前的研究热点。在实际应用中许多数据具有多义性,一个实例可能对应标签集中的多个类别标签,文本多标签分类的目的就是为文本到标签集建立起一对多的关联。相对于传统的单标签分类,多标签分类是一种更符合真实应用场景的方法。比如在公安业务场景中,案件的受理过程会产生大量案件的警情文本,一般需要人工来标注标签,以方便理解和检索,从而为后续案件研判和侦破提供数据服务,例如,警情文本“被一外国女子以问路的方式诈骗,骗走一台vivo手机,价值1600元”对应“诈骗”和“涉外国人”两个标签。另外,实际应用中为了高效组织和管理海量文本数据,通常需要按照一个概念或主题将这些文本组织为层级分类目录,文本层次分类目的是在预定义的层级目录框架下为一个样本指定一条由多个层次标签组成的类别路径。例如,警情文本“被一外国女子以问路的方式诈骗,骗走一台vivo手机,价值1600元”中对应的层次类别路径为“诈骗类/接触型诈骗/名借实骗”。实际应用往往需要对一个文本既进行多标签分类,又进行层次分类。与传统的单分类任务相比,多标签分类和层次分类任务更加复杂,现有研究重点关注如何对样本到标签之间的一对多映射进行建模;同时,由于多标签分类任务中的标签往往存在较强的语义关系,而层次分类标签之间存在父子或兄弟关系,可以充分利用标签之间的语义关系来提高分类效果。针对文本多标签分类和层次分类双重任务问题,目前的常规解决方案是分别训练一个多标签分类模型和一个层次分类模型,然后进行独立预测,但这种方案可能导致预测结果之间缺乏必要的语义关联。
技术实现思路
本专利技术提出了一种基于生成式多任务学习模型的文本分类方法,用于克服现有技术中多种分类模型中缺乏语义关联导致分类效果难以综合优化的缺陷,本专利技术利用多任务学习把多标签分类任务和层次分类任务整合到一个多任务分类模型之中,从而达到提升子任务分类性能目的。为实现上述目的,本专利技术提供一种基于生成式多任务学习模型的文本分类方法,包括如下步骤:S1.对训练集中的各文本语料按照多标签分类和层次分类分别进行标定各自构建真实标签集;S2.基于多任务学习机制构建多任务分类模型,通过训练集根据共享编码器进行编码,根据多标签分类任务和层次分类任务交替对所述多任务分类模型进行解码并得到训练分类标签;S3.根据训练分类标签和真实标签计算损失值,并采用多标签分类任务和层次分类任务交替训练的方法对模型进行优化训练,获得优化分类模型;S4.将待测试集的各文本语料输入优化模型获得预测分类标签。采用本专利技术可以达到以下技术效果:本专利技术首先构建训练集,对训练集中的文本语料进行预处理和分类标注,根据多标签分类标准和层次分类标准针对训练集分别构目标建标签集;基于多任务学习机制构建了一个多任务分类模型,通过训练集根据多标签分类任务和层次分类任务交替对所述多任务分类模型进行解码,解码获得与编码时刻特征向量相关的当前时刻语义特征,用来衡量编码器中第i时刻的特征向量和解码时第t时刻的相关性,并进行训练;根据训练结果和真实标签集对多任务分类模型进行优化,获得优化多任务分类模型;将待测集中的数据(没有标定的文本语料)输入上述优化多任务分类模型,分别获得分类标签;上述模型在训练过程中通过多任务机制构建了多标签分类模型与层次分类模型之间的语义关联性,因此可以增强两个子任务预测结果之间的语义关联,从而达到提升子任务分类性能目的。附图说明图1为本专利技术一种基于生成式多任务学习模型的文本分类方法的工作流程示意图;图2为本专利技术一种基于生成式多任务学习模型的文本分类方法的分类流程示意图。具体实施方式:下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。本专利技术实施例提供一种基于生成式多任务学习模型的文本分类方法。如图1所示,本专利技术实施的框架包括数据输入及预处理模块、词嵌入模块、编码模块,多标签分类任务和层次分类任务分别拥有独立的注意力机制,并分别包括独立的多标签分类解码模块和层次分类解码模块,最后分别是多标签分类预测输出模块和层次分类预测输出模块,其中多标签分类模块和层次分类模块的解码模块又都包括模型优化模块,其中多标签分类模块的解码模块的优化是通过顺序不敏感的损失函数进行,而层次分类模块的解码模块优化是通过普通损失函数计算交叉熵实现的。本专利技术提出一种基于生成式多任务学习模型的文本分类方法,同时实现文本的多标签分类和层次分类。系统框架如图2所示,总体框架,整个系统由3部分组成:1、共享编码器,对输入的文本进行编码,后续解码器共享此编码器的输出。2、多标签分类解码器,完成多标签分类任务;3、层次分类解码器,完成层次分类任务。其中编码器和解码器都使用了长短记忆模型网络结构,两个解码器分别拥有各自的注意力机制。本专利技术包括如下步骤:首先对待输入文本语料进行预处理,对即将输入的文本语料中的文本数据进行分词、去停用词,构建语料词表;将所述语料词表进行词嵌入处理获得所述文本语料的词嵌入矩阵;S1.对训练集中的各文本语料按照多标签分类和层次分类分别进行标定各自构建真实标签集;多标签分类任务和层次分类任务对应的完整标签集分别为和完整标签集即分类任务对应的全部标签,多标签分类任务和层次分类任务的完整标签集对应标签数量分别为L_M和L_H。待分类文本语料包含n个中文词x1,x2,…,xn,多标签分类任务和层次分类任务是为其指定一个的子集YM和一个的子集YH对应标签个数分别为m_M和m_H。训练集中各文本语料对应的真实标签集是也属于完整标签集的子集。S2.基于多任务学习机制构建多任务分类模型,通过训练集根据共享编码器进行编码,根据多标签分类任务和层次分类任务交替对所述多任务分类模型进行解码并得到训练分类标签;多任务学习使用共同学习取代常见的独立学习。多任务学习模型提取多个任务之间的关联性,提炼出其中所具有的相同特征,如共享子向量、共享子空间等,各个子任务能够得到额外的有用信息,大部分情况下都能取得比单任务学习更好的效果。在自然语言处理应用中,多任务学习不仅能利用相关任务的相互关联性缓解语料由于规模小带来的训练欠拟合问题,而且还能提升模型的泛化能力。本专利技术利用多任务学习模型把多标签分类任务和层次分类任务整合到一个框架之中,从而达到提升子任务分类性能目的,同时将尝试利用多任务学习增强两个子任务预测结果之间的语义关联。S3.根据训练分类标签和真实标签计算损失值,并采用多标签分类任务和层次分类任务交替训练的方法对模型进行优化训练,获得优化分类模型;S4.将待测试集的各文本语料输入优化模型获得预测分类标签。本专利技术所述S2包括:S2.1.文本语料经预处理得到词嵌入矩阵,词嵌入矩阵中输入共享编码器,共享编码器利用双向长短记忆模型,根据词嵌入矩阵中对应当前时刻词嵌入向量以及当前时刻本文档来自技高网
...

【技术保护点】
1.一种基于生成式多任务学习模型的文本分类方法,其特征在于,包括如下步骤:S1.对训练集中的各文本语料按照多标签分类和层次分类分别进行标定各自构建真实标签集;S2.基于多任务学习机制构建多任务分类模型,通过训练集根据共享编码器进行编码,根据多标签分类任务和层次分类任务交替对所述多任务分类模型进行解码并得到训练分类标签;S3.根据训练分类标签和真实标签计算损失值,并采用多标签分类任务和层次分类任务交替训练的方法对模型进行优化训练,获得优化分类模型;S4.将待测试集的各文本语料输入优化模型获得预测分类标签。

【技术特征摘要】
1.一种基于生成式多任务学习模型的文本分类方法,其特征在于,包括如下步骤:S1.对训练集中的各文本语料按照多标签分类和层次分类分别进行标定各自构建真实标签集;S2.基于多任务学习机制构建多任务分类模型,通过训练集根据共享编码器进行编码,根据多标签分类任务和层次分类任务交替对所述多任务分类模型进行解码并得到训练分类标签;S3.根据训练分类标签和真实标签计算损失值,并采用多标签分类任务和层次分类任务交替训练的方法对模型进行优化训练,获得优化分类模型;S4.将待测试集的各文本语料输入优化模型获得预测分类标签。2.如权利要求1所述的一种基于生成式多任务学习模型的文本分类方法,其特征在于,所述S2包括:S2.1.文本语料经预处理得到词嵌入矩阵,词嵌入矩阵中输入共享编码器,共享编码器利用双向长短记忆模型,根据词嵌入矩阵中对应当前时刻词嵌入向量以及当前时刻词嵌入向量的历史信息和未来信息得到当前时刻对应的特征向量,每一时刻对应的特征向量组成特征向量序列;S2.2.将所述特征向量输入多任务分类解码器,根据多标签分类任务和层次分类任务交替解码获得与编码时刻特征向量相关的当前时刻语义特征;S2.3.根据前一时刻语义特征、前一时刻输出对应完整标签集中标签的词嵌入向量以及前一时刻隐藏向量,获得当前时刻隐藏向量;S2.4.多标签分类任务根据当前时刻隐藏向量及当前时刻语义特征,层次分类任务根据当前时刻隐藏向量、当前时刻语义特征以及层级结构掩码矩阵,分别获得当前时刻在完整标签集上的概率分布,取最大值作为当前时刻的训练分类标签。3.如权利要求2所述的一种基于生成式多任务学习模型的文本分类方法,其特征在于,所述S2.2包括:多任务分类解码器中包括多标签分类注意力机制层和层次分类注意力机制层;多标签分类注意力机制层解码输出特征向量序列对应的多标签分类任务语义特征序列;层次分类注意力机制层解码输出特征向量序列对应的层次分类任务语义特征序列;其中语义特征序列由每一解码时刻按照先后顺序生成的语义特征组成。4.如权利要求2所述的一种基于生成式多任务学习模型的文本分类方法,其特征在于,所述S2.3中当前时刻隐藏向量获得的方法包括:S2.31,对多任务分类模型初始化,将多任务注意力机制层处理后得到的语义特征赋值给隐藏层的隐藏向量,并输入至多任务分类模型中的多任务分类器,其中多任务分类器包括多标签分类器和层次分类器,多任务分类器计算当前时刻语义特征在完整标签集上的概率分布,并输出概率最大值对应的分类标签;S2.32,将前一时刻的输出在完整标签集上的概率分布最大的分类标签、前一时刻的语义特征以及前一时刻的隐藏向量输入至多任务分类模型的长短记忆模型层,得到当前时刻的隐藏层对应的隐藏向量。5.如权利要求2...

【专利技术属性】
技术研发人员:谢松县高辉陈仲生彭立宏
申请(专利权)人:湖南数定智能科技有限公司
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1