文本标签生成、模型训练、文本分类方法及相关设备技术

技术编号：37595862 阅读：11 留言：0更新日期：2023-05-18 11:42

本申请公开了一种文本标签生成、模型训练、文本分类方法及相关设备，用于解决相关技术中得到的类别标签无法准确描述样本语料所属的类别而影响后续训练出的文本分类模型的准确性以及基于文本分类模型的文本分类任务的执行准确性。所述文本标签生成方法包括：基于目标分类任务对应的样本文本中的关键词，从预先构建的概念树中获取样本文本对应的元概念路径，概念树用于表示多个元概念之间的层级关系，元概念路径用于表示概念树中与样本文本相关的多个目标元概念之间的层级关系；基于多个目标元概念分别对应的概念向量及多个目标元概念之间的层级关系在预设元概念表中进行标签词语查找，确定样本文本对应的标签词语并作为样本文本对应的类别标签。作为样本文本对应的类别标签。作为样本文本对应的类别标签。

全部详细技术资料下载

【技术实现步骤摘要】
文本标签生成、模型训练、文本分类方法及相关设备

[0001]本申请涉及自然语言处理
，尤其涉及一种文本标签生成、模型训练、文本分类方法及相关设备。

技术介绍

[0002]目前用于自然语言处理(Natural Language Processing，NLP)的预训练语言模型主要集中于对输入数据的编码，具体包括对样本文本的编码和样本文本对应的类别标签的编码。
[0003]在文本分类任务中，尤其是层次分类任务，对样本语料对应的类别标签的编码至关重要。相关技术中对于类别标签的编码，通常是从样本语料中找出关键词作为用于表示样本语料所属类别的类别标签，然后对该关键词进行编码，以实现对类别标签的编码。
[0004]但是，实际应用中关键词的内涵意义会受到语境的影响，而上述方式得到的类别标签的含义受限于关键词在样本语料中的语义而无法表示描述样本语料所属的类别，导致影响后续基于样本文本及其对应的类别标签各自的编码结果训练出的文本分类模型的准确性，进而影响基于文本分类模型的文本分类任务的执行准确性。

技术实现思路

[0005]本申请实施例的目的提供一种文本标签生成、模型训练、文本分类方法及相关设备，用于解决相关技术中得到的类别标签无法准确描述样本语料所属的类别而影响后续训练出的文本分类模型的准确性以及基于文本分类模型的文本分类任务的执行准确性。
[0006]为了实现上述目的，本申请实施例采用下述技术方案：
[0007]第一方面，本申请实施例提供一种文本标签生成方法，包括：
[0...

【技术保护点】

【技术特征摘要】
1.一种文本标签生成方法，其特征在于，包括：基于目标分类任务对应的样本文本中的关键词，从预先构建的概念树中获取所述样本文本对应的元概念路径，其中，所述概念树用于表示多个元概念之间的层级关系，所述元概念路径用于表示所述概念树中与所述样本文本相关的多个目标元概念以及所述多个目标元概念之间的层级关系；所述概念树中的一个元概念是用于表示词语的词义的语言单元；基于所述多个目标元概念分别对应的概念向量以及所述多个目标元概念之间的层级关系在预设元概念表中进行标签词语查找，确定所述样本文本对应的标签词语，其中，所述标签词语用于表示所述样本文本在所述目标分类任务下所属的类别；所述预设元概念表用于表示词语与词向量之间的映射关系；将所述标签词语确定为所述样本文本对应的类别标签。2.根据权利要求1所述的方法，其特征在于，所述基于所述多个目标元概念分别对应的概念向量以及所述多个目标元概念之间的层级关系在预设元概念表中进行标签词语查找，确定所述样本文本对应的标签词语，包括：基于所述多个目标元概念之间的层级关系，确定所述多个目标元概念分别对应的概念向量之间的排列顺序；基于所述多个目标元概念分别对应的概念向量之间的排列顺序，对所述多个目标元概念分别对应的概念向量进行拼接，得到合并向量；基于所述预设元概念表确定所述合并向量对应的词语并作为所述样本文本对应的标签词语。3.根据权利要求2所述的方法，其特征在于，在基于所述预设元概念表确定所述合并向量对应的词语并作为所述样本文本对应的标签词语之前，所述方法还包括：获取包含样本词语的第一语句以及包含所述样本词语的关联词语的第二语句，以及获取所述样本词语的词义区别元概念序列，其中，所述词义区别元概念序列包括用于对所述样本词语和所述关联词语进行词义区分的元概念；基于所述第一语句和所述第二语句，构建所述样本词语对应的语句组；以所述样本词语对应的语句组作为训练样本、以所述样本词语的词义区别元概念序列作为训练样本对应的标签对元概念模型进行训练，并获取所述元概念模型在训练过程中输出的所述样本词语的元概念序列；获取所述样本词语的元概念序列中每个元概念的概念向量；将所述样本词语的元概念序列中每个元概念的概念向量进行合并，得到所述样本词语的词向量；基于所述样本词语以及所述样本词语的词向量，构建所述预设元概念表。4.根据权利要求3所述的方法，其特征在于，在获取所述元概念模型在训练过程中输出的所述样本词语的元概念序列之后，所述方法还包括：基于所述样本词语的元概念序列以及元概念序列中每个元概念的概念向量，构建元概念映射表，其中，所述元概念映射表用于表示元概念与概念向量之间的映射关系；在基于所述多个目标元概念分别对应的概念向量以及所述多个目标元概念之间的层级关系在预设元概念表中进行标签词语查找之前，所述方法还包括：基于每个目标元概念查询所述元概念映射表，得到每个目标元概念对应的概念向量。
5.根据权利要求3所述的方法，其特征在于，所述样本词语的元概念序列包括第一元概念，所述第一元概念为所述样本词语的元概念序列中的任意一个元概念，获取所述样本词语的元概念序列中每个元概念的概念向量，包括：将所述第一元概念分别映射到多个元概念空间，得到所述第一元概念在所述多个元概念空间下分别对应的概念子向量，每个元概念空间用于表示元概念的一种属性；基于所述多个元概念空间之间的预设优先级顺序，对所述第一元概念在所述多个元概念空间下分别对应的概念子向量进行合并，得到所述第一元概念的概念向量。6.根据权利要求1至5中任一项所述的方法，其特征在于，在基于目标分类任务对应的样本文本中的关键词，从预先构建的概念树中获取所述样本文本对应的元概念路径之前，所述方法还包括：获取文本集，所述文本集包括多个分类任务对应的文本；对所述文本集中的文本中的关键词进行词义解析，得到元概念集，...

【专利技术属性】
技术研发人员：白安琪，蒋宁，夏粉，吴海英，肖冰，
申请(专利权)人：马上消费金融股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人