文本标签生成、模型训练、文本分类方法及相关设备技术

技术编号:37595862 阅读:11 留言:0更新日期:2023-05-18 11:42
本申请公开了一种文本标签生成、模型训练、文本分类方法及相关设备,用于解决相关技术中得到的类别标签无法准确描述样本语料所属的类别而影响后续训练出的文本分类模型的准确性以及基于文本分类模型的文本分类任务的执行准确性。所述文本标签生成方法包括:基于目标分类任务对应的样本文本中的关键词,从预先构建的概念树中获取样本文本对应的元概念路径,概念树用于表示多个元概念之间的层级关系,元概念路径用于表示概念树中与样本文本相关的多个目标元概念之间的层级关系;基于多个目标元概念分别对应的概念向量及多个目标元概念之间的层级关系在预设元概念表中进行标签词语查找,确定样本文本对应的标签词语并作为样本文本对应的类别标签。作为样本文本对应的类别标签。作为样本文本对应的类别标签。

【技术实现步骤摘要】
文本标签生成、模型训练、文本分类方法及相关设备


[0001]本申请涉及自然语言处理
,尤其涉及一种文本标签生成、模型训练、文本分类方法及相关设备。

技术介绍

[0002]目前用于自然语言处理(Natural Language Processing,NLP)的预训练语言模型主要集中于对输入数据的编码,具体包括对样本文本的编码和样本文本对应的类别标签的编码。
[0003]在文本分类任务中,尤其是层次分类任务,对样本语料对应的类别标签的编码至关重要。相关技术中对于类别标签的编码,通常是从样本语料中找出关键词作为用于表示样本语料所属类别的类别标签,然后对该关键词进行编码,以实现对类别标签的编码。
[0004]但是,实际应用中关键词的内涵意义会受到语境的影响,而上述方式得到的类别标签的含义受限于关键词在样本语料中的语义而无法表示描述样本语料所属的类别,导致影响后续基于样本文本及其对应的类别标签各自的编码结果训练出的文本分类模型的准确性,进而影响基于文本分类模型的文本分类任务的执行准确性。

技术实现思路

[0005]本申请实施例的目的提供一种文本标签生成、模型训练、文本分类方法及相关设备,用于解决相关技术中得到的类别标签无法准确描述样本语料所属的类别而影响后续训练出的文本分类模型的准确性以及基于文本分类模型的文本分类任务的执行准确性。
[0006]为了实现上述目的,本申请实施例采用下述技术方案:
[0007]第一方面,本申请实施例提供一种文本标签生成方法,包括:
[0008]基于目标分类任务对应的样本文本中的关键词,从预先构建的概念树中获取所述样本文本对应的元概念路径,其中,所述概念树用于表示多个元概念之间的层级关系,所述元概念路径用于表示所述概念树中与所述样本文本相关的多个目标元概念以及所述多个目标元概念之间的层级关系;所述概念树中的一个元概念是用于表示词语的词义的语言单元;
[0009]基于所述多个目标元概念分别对应的概念向量以及所述多个目标元概念之间的层级关系在预设元概念表中进行标签词语查找,确定所述样本文本对应的标签词语,其中,所述标签词语用于表示所述样本文本在所述目标分类任务下所属的类别;所述预设元概念表用于表示词语与词向量之间的映射关系;
[0010]将所述标签词语确定为所述样本文本对应的类别标签。
[0011]通过本申请实施例提供的文本标签生成方法,考虑到元概念是对人类所感知的事物的共同本质特点进行抽象获得的信息,其能够真实、准确地描述事物的内涵意义,因而能够将不同事物从本质上区分开来而不受语境的影响,基于此,利用预先构建好的表示多个元概念之间的层级关系的概念树,基于目标分类任务对应的样本文本中的关键词从概念树
中确定与样本文本相关的多个目标元概念以及多个目标元概念之间的层级关系,使得这些目标元概念能够从根本上反映样本文本的语义;进一步,基于多个目标元概念之间的层级关系,确定样本文本对应的标签词语作为类别标签,使得样本文本的语义能够通过多个目标元概念之间的层级关系得到增强,进而使得获得的作为类别标签的标签词语能够更准确地表示样本文本在目标分类任务下所属的类别,从而为文本分类模型提供更准确的监督信号,有利于提高后续基于样本文本及其对应的类别标签训练得到的文本分类模型的准确性以及基于文本分类模型的文本分类任务的执行准确性。
[0012]第二方面,本申请实施例提供一种文本分类模型的训练方法,包括:
[0013]获取目标分类任务对应的样本文本以及所述样本文本对应的类别标签,所述样本文本对应的类别标签为基于第一方面所述的文本标签生成方法得到的;
[0014]对所述样本文本进行编码,得到所述样本文本对应的文本向量;
[0015]对所述类别标签进行编码,得到所述类别标签对应的标签向量;
[0016]基于所述样本文本对应的文本向量以及所述类别标签对应的标签向量,训练用于执行所述目标分类任务的文本分类模型。
[0017]通过本申请实施例提供的文本分类模型的训练方法,由于通过上述文本标签生成方法获得样本文本对应的类别标签能够更准确地表示样本文本在目标分类任务下所属的类别,在通过上述文本标签生成方法获得样本文本对应的类别标签之后,分别对样本文本及其对应的类别标签进行编码,进一步基于样本文本及其对应的类别标签各自的编码结果训练用于执行目标分类任务的文本分类模型,使得文本分类模型能够从样本文本对应的类别标签提供的监督信号中更准确地学习和理解样本文本的语义,进而使得文本分类模型的训练效果得以提升,有利于提高文本分类模型的分类准确性。
[0018]第三方面,本申请实施例提供一种文本分类方法,包括:
[0019]获取待处理文本;
[0020]通过文本分类模型对所述待处理文本执行目标分类任务,得到所述待处理文本在所述目标分类任务下所属的类别,其中,所述文本分类模型为基于所述目标分类任务对应的样本文本以及所述样本文本对应的类别标签进行训练得到的,所述样本文本对应的类别标签为基于第一方面所述的文本标签生成方法得到的。
[0021]通过本申请实施例提供的文本分类方法,由于通过上述文本标签生成方法获得样本文本对应的类别标签能够更准确地表示样本文本在目标分类任务下所属的类别,从而为文本分类模型提供更准确的监督信号,有利于提高后续基于样本文本及其对应的类别标签训练得到的文本分类模型的准确性;在此基础上,通过训练得到的文本分类模型对待处理文本执行目标分类任务,有利于提高对待处理文本的分类准确性。
[0022]第四方面,本申请实施例提供一种文本标签生成装置,包括:
[0023]获取单元,用于基于目标分类任务对应的样本文本中的关键词,从预先构建的概念树中获取所述样本文本对应的元概念路径,其中,所述概念树用于表示多个元概念之间的层级关系,所述元概念路径用于表示所述概念树中与所述样本文本相关的多个目标元概念以及所述多个目标元概念之间的层级关系;所述概念树中的一个元概念是用于表示词语的词义的语言单元;
[0024]确定单元,用于基于所述多个目标元概念分别对应的概念向量以及所述多个目标
元概念之间的层级关系在预设元概念表中进行标签词语查找,确定所述样本文本对应的标签词语,其中,所述标签词语用于表示所述样本文本在所述目标分类任务下所属的类别;所述预设元概念表用于表示词语与词向量之间的映射关系;
[0025]所述确定单元,还用于将所述标签词语确定为所述样本文本对应的类别标签。
[0026]第五方面,本申请实施例提供一种文本分类模型的训练装置,包括:
[0027]获取单元,用于获取目标分类任务对应的样本文本以及所述样本文本对应的类别标签,所述样本文本对应的类别标签为基于第一方面所述的文本标签生成方法得到的;
[0028]编码单元,用于对所述样本文本进行编码,得到所述样本文本对应的文本向量;
[0029]所述编码单元,还用于对所述类别标签进行编码,得到所述类别标签对应的标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本标签生成方法,其特征在于,包括:基于目标分类任务对应的样本文本中的关键词,从预先构建的概念树中获取所述样本文本对应的元概念路径,其中,所述概念树用于表示多个元概念之间的层级关系,所述元概念路径用于表示所述概念树中与所述样本文本相关的多个目标元概念以及所述多个目标元概念之间的层级关系;所述概念树中的一个元概念是用于表示词语的词义的语言单元;基于所述多个目标元概念分别对应的概念向量以及所述多个目标元概念之间的层级关系在预设元概念表中进行标签词语查找,确定所述样本文本对应的标签词语,其中,所述标签词语用于表示所述样本文本在所述目标分类任务下所属的类别;所述预设元概念表用于表示词语与词向量之间的映射关系;将所述标签词语确定为所述样本文本对应的类别标签。2.根据权利要求1所述的方法,其特征在于,所述基于所述多个目标元概念分别对应的概念向量以及所述多个目标元概念之间的层级关系在预设元概念表中进行标签词语查找,确定所述样本文本对应的标签词语,包括:基于所述多个目标元概念之间的层级关系,确定所述多个目标元概念分别对应的概念向量之间的排列顺序;基于所述多个目标元概念分别对应的概念向量之间的排列顺序,对所述多个目标元概念分别对应的概念向量进行拼接,得到合并向量;基于所述预设元概念表确定所述合并向量对应的词语并作为所述样本文本对应的标签词语。3.根据权利要求2所述的方法,其特征在于,在基于所述预设元概念表确定所述合并向量对应的词语并作为所述样本文本对应的标签词语之前,所述方法还包括:获取包含样本词语的第一语句以及包含所述样本词语的关联词语的第二语句,以及获取所述样本词语的词义区别元概念序列,其中,所述词义区别元概念序列包括用于对所述样本词语和所述关联词语进行词义区分的元概念;基于所述第一语句和所述第二语句,构建所述样本词语对应的语句组;以所述样本词语对应的语句组作为训练样本、以所述样本词语的词义区别元概念序列作为训练样本对应的标签对元概念模型进行训练,并获取所述元概念模型在训练过程中输出的所述样本词语的元概念序列;获取所述样本词语的元概念序列中每个元概念的概念向量;将所述样本词语的元概念序列中每个元概念的概念向量进行合并,得到所述样本词语的词向量;基于所述样本词语以及所述样本词语的词向量,构建所述预设元概念表。4.根据权利要求3所述的方法,其特征在于,在获取所述元概念模型在训练过程中输出的所述样本词语的元概念序列之后,所述方法还包括:基于所述样本词语的元概念序列以及元概念序列中每个元概念的概念向量,构建元概念映射表,其中,所述元概念映射表用于表示元概念与概念向量之间的映射关系;在基于所述多个目标元概念分别对应的概念向量以及所述多个目标元概念之间的层级关系在预设元概念表中进行标签词语查找之前,所述方法还包括:基于每个目标元概念查询所述元概念映射表,得到每个目标元概念对应的概念向量。
5.根据权利要求3所述的方法,其特征在于,所述样本词语的元概念序列包括第一元概念,所述第一元概念为所述样本词语的元概念序列中的任意一个元概念,获取所述样本词语的元概念序列中每个元概念的概念向量,包括:将所述第一元概念分别映射到多个元概念空间,得到所述第一元概念在所述多个元概念空间下分别对应的概念子向量,每个元概念空间用于表示元概念的一种属性;基于所述多个元概念空间之间的预设优先级顺序,对所述第一元概念在所述多个元概念空间下分别对应的概念子向量进行合并,得到所述第一元概念的概念向量。6.根据权利要求1至5中任一项所述的方法,其特征在于,在基于目标分类任务对应的样本文本中的关键词,从预先构建的概念树中获取所述样本文本对应的元概念路径之前,所述方法还包括:获取文本集,所述文本集包括多个分类任务对应的文本;对所述文本集中的文本中的关键词进行词义解析,得到元概念集,...

【专利技术属性】
技术研发人员:白安琪蒋宁夏粉吴海英肖冰
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1