【技术实现步骤摘要】
一种基于多任务学习知识增强的级联标签分类方法
[0001]本专利技术涉及自然语言处理
,具体涉及一种基于多任务学习知识增强的级联标签分类方法。
技术介绍
[0002]运营商领域存在丰富的业务文本或语音数据,其中运营商电话投诉是一项影响客户满意度的关键服务,广泛服务于全国各地的用户。在之前的实际工作中,一般通过客服坐席人员人工标注每一条投诉工单的分类标签,而且需要进行多级标注,每一级代表不同的含义。“级联标签分类”是利用模型对文本进行级联分类,级联标签之间具有相关关系或因果关系,模型需要既理解文本内容又理解级联标签之间的相关关系。
[0003]传统的级联标签分类通常采用多标签分类的方法,即将其作为单标签同时分类,而没有考虑到标签之间的语义关系。为此,提出一种基于多任务学习知识增强的级联标签分类方法。
技术实现思路
[0004]本专利技术所要解决的技术问题在于:如何解决目前运营商投诉工单文本分类模型准确率低下,无法很好地完成级联标签分类任务的问题,提供了一种基于多任务学习知识增强的级联标签分类方法,通过多任务学习使模型学习到标签之间的关系信息,通过知识增强加深模型对投诉工单文本的理解深度,提升投诉工单级联标签分类的准确率。
[0005]如图1所示,本专利技术是通过以下技术方案解决上述技术问题的,本专利技术包括以下步骤:
[0006]S1:语义表征
[0007]对投诉工单文本利用上下文编码器、知识增强编码器分别从上下文语境的角度和义原知识的角度进行语义表征,得到投诉工单 ...
【技术保护点】
【技术特征摘要】
1.一种基于多任务学习知识增强的级联标签分类方法,其特征在于,包括以下步骤:S1:语义表征对投诉工单文本利用上下文编码器、知识增强编码器分别从上下文语境的角度和义原知识的角度进行语义表征,得到投诉工单文本的语义表征向量;S2:多任务分类通过多任务学习分类器中四个对应于不同任务的分类器,根据不同分类器迭代的训练编码器所得到的共享语义表征,得到不同级别的分类标签。2.根据权利要求1所述的一种基于多任务学习知识增强的级联标签分类方法,其特征在于:在所述步骤S1中,上下文编码器为运营商领域投诉分类模型preBert,也即预训练模型preBert,利用预训练模型preBert对投诉工单数据进行训练得到基于上下文的语义表征,对于投诉工单文本序列t,通过已有的预训练模型preBert编码获得文本序列t的上下文语义表征向量定义如下:其中,preBert(
·
)表示基于BERT模型的向量编码器。3.根据权利要求2所述的一种基于多任务学习知识增强的级联标签分类方法,其特征在于:在所述步骤S1中,知识增强编码器包括基于义原的知识学习模块和基于序列的知识编码模块,其中,基于义原的知识学习模块用于习得每一个词语基于义原层面的词表征,然后再基于序列的知识编码模块聚合获取知识增强的句子表征。4.根据权利要求3所述的一种基于多任务学习知识增强的级联标签分类方法,其特征在于:所述基于义原的知识学习模块的具体处理过程如下:S101:知识获取统计所有文本序列中的词汇,构建词汇表V,其中包括N个词语,第i个词语表示为w
i
;通过查询中文知识库Hownet,可以获得第i个词语w
i
拥有p个词义第j个词义s
j
拥有q个义原S102:义原表征获取基于预训练模型preBert对义原进行编码获取对应的义原表征向量,分别为S103:词义表征获取假设代表词语w
i
的第j个词义嵌入,其是由该词义下所有义原嵌入向量表征组合获得,定义如下:
其中,是指词义s
j
中所有义原的集合,表示义原表征在组合成词语w
i
的第j个词义语义表征时每一个义原的重要性权重,表示词语w
i
基于预训练模型preBert编码获取的上下文向量表征,是词语w
i
中第j个词义的第k个义原的语义表征向量;S104:知识增强的词语表征获取第i个词语基于知识的语义表征是通过整合词语的每一个词义的表征获取的;第i个词语基于知识的语义表征定义如下:定义如下:其中,表示词语...
【专利技术属性】
技术研发人员:李飞,王颜颜,陈政伊,冯强中,范文斌,周源,黄友志,丁常坤,程磊,
申请(专利权)人:科大国创云网科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。