一种文本分类方法、装置及相关产品制造方法及图纸

技术编号:39283232 阅读:8 留言:0更新日期:2023-11-07 10:56
本申请公开一种文本分类方法、装置及相关产品,可应用于基于大模型的人工智能领域。方法中获取待分类的目标文本和类别标签库;从类别标签库所包括的多个类别标签中,确定与目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签;基于目标文本和K个候选类别标签,通过文本分类模型输出目标文本对应的目标类别标签。该方案使得文本分类模型在文本样本数量较少的情况下,文本分类模型所输出的文本分类结果的准确性不再只依赖于文本样本数量,而是可以通过类别标签本身的文本语义信息,将文本分类模型输出的结果限定在与目标文本相似度高的K个候选类别标签中。因此能够提高文本分类结果的准确性,进而提高文本的分类准确率。准确率。准确率。

【技术实现步骤摘要】
一种文本分类方法、装置及相关产品


[0001]本申请涉及自然语言处理
,尤其涉及一种文本分类方法、装置及相关产品。

技术介绍

[0002]文本分类是自然语言处理中的一项基础任务,被广泛应用于搜索、推荐、对话以及问答等多个业务场景。目前,随着文本类别数量的增多,通常会对文本进行多层次分类。例如,当用户输入文本“手机A”进行搜索时,会先确定“手机A”属于“商品

手机”这个类别,再根据该文本的类别确定搜索结果。其中,“商品

手机”中包括属于第一类别层次的类别“商品”,以及在“商品”下属于第二类别层次的类别“手机”。
[0003]相关技术中,对文本进行多层次分类的方案可以分为以下两种:一种方案是,从多个类别中直接确定文本所属类别。但该方案将多个类别同等对待,没有利用类别的层次信息。另一种方案是,利用类别的层次信息,先从第一类别层次的多个类别中确定文本所属类别A,再从类别A下的第二类别层次的多个类别中确定文本所属类别B等,以此类推。但上文提及的两种方案均存在类似的问题:两种方案均调用训练好的文本分类模型进行文本分类,而层次较低的类别对应的文本样本数量可能会比较少,容易影响文本分类模型的训练效果,进一步导致模型输出的文本分类结果准确性不足。

技术实现思路

[0004]本申请实施例提供了一种文本分类方法、装置及相关产品,旨在提高文本分类结果的准确性,进而提高文本的分类准确率。
[0005]本申请第一方面提供了一种文本分类方法,包括:获取待分类的目标文本和类别标签库;所述类别标签库中包括多个类别标签,一个类别标签由属于至少一个类别层次的类别文本构成;所述类别层次用于表示类别在类别层次体系中所在的层次;所述类别层次体系包括至少两个类别层次;从所述类别标签库所包括的多个类别标签中,确定与所述目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签;所述K为大于1的整数;基于所述目标文本和所述K个候选类别标签,通过文本分类模型输出所述目标文本对应的目标类别标签;所述目标类别标签为所述K个候选类别标签中与所述目标文本所属类别最匹配的一个类别标签。
[0006]本申请第二方面提供了一种文本分类装置,包括:获取模块,用于获取待分类的目标文本和类别标签库;所述类别标签库中包括多个类别标签,一个类别标签由属于至少一个类别层次的类别文本构成;所述类别层次用于表示类别在类别层次体系中所在的层次;所述类别层次体系包括至少两个类别层次;标签确定模块,用于从所述类别标签库所包括的多个类别标签中,确定与所述目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签;所述K为大于1的整
数;标签输出模块,用于基于所述目标文本和所述K个候选类别标签,通过文本分类模型输出所述目标文本对应的目标类别标签;所述目标类别标签为所述K个候选类别标签中与所述目标文本所属类别最匹配的一个类别标签。
[0007]本申请第三方面提供了一种文本分类设备,所述设备包括处理器以及存储器:所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;所述处理器用于根据所述计算机程序中的指令执行第一方面提供的文本分类方法的步骤。
[0008]本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被文本分类设备执行时实现第一方面提供的文本分类方法的步骤。
[0009]本申请第五方面提供了一种计算机程序产品,包括计算机程序,该计算机程序被文本分类设备执行时实现第一方面提供的文本分类方法的步骤。
[0010]从以上技术方案可以看出,本申请实施例具有以下优点:本申请技术方案中先获取待分类的目标文本和包括多个类别标签的类别标签库,一个类别标签由属于至少一个类别层次的类别文本构成,类别层次用于表示类别在类别层次体系中所在的层次,类别层次体系包括至少两个类别层次。然后,从类别标签库包括的多个类别标签中,确定与目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签。随后,基于目标文本和K个候选类别标签,通过文本分类模型输出目标文本对应的目标类别标签,目标类别标签为K个候选类别标签中与目标文本所属类别最匹配的一个类别标签。本申请中利用类别标签本身的文本语义信息,先确定出K个候选类别标签,再通过文本分类模型从K个候选类别标签中确定出目标文本所属的目标类别标签。可见,该方案相较于相关技术,使得文本分类模型在文本样本数量较少的情况下,文本分类模型所输出的文本分类结果的准确性不再只依赖于文本样本数量,而是可以通过类别标签本身的文本语义信息,将文本分类模型输出的结果限定在与目标文本相似度高的K个候选类别标签中,也即限定了文本分类模型可输出的文本分类结果对应的类别标签的范围,避免文本分类模型从大量类别标签中确定目标文本对应的目标类别标签。因此能够提高文本分类结果的准确性,进而提高文本的分类准确率。
附图说明
[0011]图1为本申请实施例提供的一种文本分类方法的场景架构图;图2为本申请实施例提供的一种文本分类方法的流程图;图3为本申请实施例提供的一种文本分类模型输出目标文本对应的目标类别标签的示意图;图4为本申请实施例提供的一种K个候选类别标签对应的类别标签树的示意图;图5为本申请实施例提供的一种具体的文本分类方法的流程示意图;图6为本申请实施例提供的一种向量转换模型的训练步骤的流程图;图7为本申请实施例提供的一种向量转换模型的模型架构图;图8为本申请实施例提供的一种文本分类装置的结构示意图;
图9为本申请实施例中服务器的一个结构示意图;图10为本申请实施例中终端设备的一个结构示意图。
具体实施方式
[0012]当前,对于文本通常进行多层次分类。例如,需要对用户所输入的文本“手机A”进行多层次分类。第一种方案是,利用执行分类任务的文本分类模型,从包括“商品

服装

女装”、“商品

手机”、“天气

A市”或者“体育

篮球

赛事战报”等多个类别中,确定与“手机A”对应的类别“商品

手机”。另一种方案是,利用执行多层次分类任务的文本分类模型,先从属于第一类别层次的多个类别“商品”、“天气”以及“体育”之中,确定“手机A”属于“商品”这个类别;再从“商品”这个类别下属于第二类别层次的多个类别“服装”以及“手机”等之中,确定“手机A”属于“手机”这个类别;以此类推,若“手机”这个类别下没有属于更低类别层次的类别,则可以确定“手机A”对应的类别为“商品

手机”。但是,上述两种方案均存在类似的问题:两种方案中的文本分类模型的性能,均依赖于模型训练时所使用的文本样本数量,而层次较低的类别对应的文本样本可能会比较少,容易影响文本分类模型的训练效果,进一步导致模型输出的文本分类结果准确性不足。
[0013]鉴于以上问题,本申请中提供了一种文本分类方法、装置及相关产品,目的是提高文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:获取待分类的目标文本和类别标签库;所述类别标签库中包括多个类别标签,一个类别标签由属于至少一个类别层次的类别文本构成;所述类别层次用于表示类别在类别层次体系中所在的层次;所述类别层次体系包括至少两个类别层次;从所述类别标签库所包括的多个类别标签中,确定与所述目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签;所述K为大于1的整数;基于所述目标文本和所述K个候选类别标签,通过文本分类模型输出所述目标文本对应的目标类别标签;所述目标类别标签为所述K个候选类别标签中与所述目标文本所属类别最匹配的一个类别标签。2.根据权利要求1所述的方法,其特征在于,所述候选类别标签筛选条件为类别标签与目标文本之间的相似度根据相似度从大到小的顺序排在前K个;所述从所述类别标签库所包括的多个类别标签中,确定与所述目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签,具体包括:计算所述多个类别标签分别与所述目标文本之间的相似度,得到所述多个类别标签分别对应的相似度;根据从大到小的顺序对所述多个类别标签分别对应的相似度进行排序,确定顺序排在前K个的相似度一一对应的所述K个候选类别标签。3.根据权利要求1所述的方法,其特征在于,所述候选类别标签筛选条件为类别标签与目标文本之间的相似度大于相似度阈值;所述从所述类别标签库所包括的多个类别标签中,确定与所述目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签,具体包括:计算所述多个类别标签分别与所述目标文本之间的相似度,得到所述多个类别标签分别对应的相似度;从所述多个类别标签中,确定出相似度大于所述相似度阈值的所述K个候选类别标签。4.根据权利要求1所述的方法,其特征在于,所述从所述类别标签库所包括的多个类别标签中,确定与所述目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签,具体包括:基于所述目标文本,通过向量转换模型生成所述目标文本的向量表示;基于所述多个类别标签,通过所述向量转换模型生成所述多个类别标签分别对应的向量表示;从所述多个类别标签中,基于所述多个类别标签分别对应的向量表示与所述目标文本的向量表示之间的相似度,确定相似度满足候选类别标签筛选条件的所述K个候选类别标签。5.根据权利要求1所述的方法,其特征在于,所述基于所述目标文本和所述K个候选类别标签,通过文本分类模型输出所述目标文本对应的目标类别标签,具体包括:基于所述K个候选类别标签的文本信息和所述K个候选类别标签的类别层次结构,生成所述K个候选类别标签对应的类别标签树;所述类别标签树的节点为候选类别标签中的文本单元;当通过所述文本分类模型预测所述目标文本的类别时,限定所述文本分类模型基于所
述类别标签树的结构以及所述类别标签树包含的节点依次输出多个文本单元,得到所述目标文本对应的目标类别标签。6.根据权利要求4所述的方法,其特征在于,所述向量转换模型为通过以下步骤训练获得的:获取包括多个语句的训练文本;从所述训练文本中确定目标语句,并从所述训练文本中将所述目标语句的相邻语句确定为所述目标语句对应的正样本语句,从所述训练文本中将除所述目标语句和所述正样本语句以外的任一剩余语句确定为所述目标语句对应的负样本语句;所述目标语句为所述训练文本中的任一语句;基于所述目标语句、所述正样本...

【专利技术属性】
技术研发人员:杨韬
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1