一种文本分类方法、装置及相关产品制造方法及图纸

技术编号：39283232 阅读：8 留言：0更新日期：2023-11-07 10:56

本申请公开一种文本分类方法、装置及相关产品，可应用于基于大模型的人工智能领域。方法中获取待分类的目标文本和类别标签库；从类别标签库所包括的多个类别标签中，确定与目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签；基于目标文本和K个候选类别标签，通过文本分类模型输出目标文本对应的目标类别标签。该方案使得文本分类模型在文本样本数量较少的情况下，文本分类模型所输出的文本分类结果的准确性不再只依赖于文本样本数量，而是可以通过类别标签本身的文本语义信息，将文本分类模型输出的结果限定在与目标文本相似度高的K个候选类别标签中。因此能够提高文本分类结果的准确性，进而提高文本的分类准确率。准确率。准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本分类方法、装置及相关产品

[0001]本申请涉及自然语言处理
，尤其涉及一种文本分类方法、装置及相关产品。

技术介绍

[0002]文本分类是自然语言处理中的一项基础任务，被广泛应用于搜索、推荐、对话以及问答等多个业务场景。目前，随着文本类别数量的增多，通常会对文本进行多层次分类。例如，当用户输入文本“手机A”进行搜索时，会先确定“手机A”属于“商品
‑
手机”这个类别，再根据该文本的类别确定搜索结果。其中，“商品
‑
手机”中包括属于第一类别层次的类别“商品”，以及在“商品”下属于第二类别层次的类别“手机”。
[0003]相关技术中，对文本进行多层次分类的方案可以分为以下两种：一种方案是，从多个类别中直接确定文本所属类别。但该方案将多个类别同等对待，没有利用类别的层次信息。另一种方案是，利用类别的层次信息，先从第一类别层次的多个类别中确定文本所属类别A，再从类别A下的第二类别层次的多个类别中确定文本所属类别B等，以此类推。但上文提及的两种方案均存在类似的问题：两种方案均调用训练好的文本分类模型进行文本分类，而层次较低的类别对应的文本样本数量可能会比较少，容易影响文本分类模型的训练效果，进一步导致模型输出的文本分类结果准确性不足。

技术实现思路

[0004]本申请实施例提供了一种文本分类方法、装置及相关产品，旨在提高文本分类结果的准确性，进而提高文本的分类准确率。
[0005]本申请第一方面提供了一种文本分类方法，包括：获取待分类的目标文本和...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法，其特征在于，包括：获取待分类的目标文本和类别标签库；所述类别标签库中包括多个类别标签，一个类别标签由属于至少一个类别层次的类别文本构成；所述类别层次用于表示类别在类别层次体系中所在的层次；所述类别层次体系包括至少两个类别层次；从所述类别标签库所包括的多个类别标签中，确定与所述目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签；所述K为大于1的整数；基于所述目标文本和所述K个候选类别标签，通过文本分类模型输出所述目标文本对应的目标类别标签；所述目标类别标签为所述K个候选类别标签中与所述目标文本所属类别最匹配的一个类别标签。2.根据权利要求1所述的方法，其特征在于，所述候选类别标签筛选条件为类别标签与目标文本之间的相似度根据相似度从大到小的顺序排在前K个；所述从所述类别标签库所包括的多个类别标签中，确定与所述目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签，具体包括：计算所述多个类别标签分别与所述目标文本之间的相似度，得到所述多个类别标签分别对应的相似度；根据从大到小的顺序对所述多个类别标签分别对应的相似度进行排序，确定顺序排在前K个的相似度一一对应的所述K个候选类别标签。3.根据权利要求1所述的方法，其特征在于，所述候选类别标签筛选条件为类别标签与目标文本之间的相似度大于相似度阈值；所述从所述类别标签库所包括的多个类别标签中，确定与所述目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签，具体包括：计算所述多个类别标签分别与所述目标文本之间的相似度，得到所述多个类别标签分别对应的相似度；从所述多个类别标签中，确定出相似度大于所述相似度阈值的所述K个候选类别标签。4.根据权利要求1所述的方法，其特征在于，所述从所述类别标签库所包括的多个类别标签中，确定与所述目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签，具体包括：基于所述目标文本，通过向量转换模型生成所述目标文本的向量表示；基于所述多个类别标签，通过所述向量转换模型生成所述多个类别标签分别对应的向量表示；从所述多个类别标签中，基于所述多个类别标签分别对应的向量表示与所述目标文本的向量表示之间的相似度，确定相似度满足候选类别标签筛选条件的所述K个候选类别标签。5.根据权利要求1所述的方法，其特征在于，所述基于所述目标文本和所述K个候选类别标签，通过文本分类模型输出所述目标文本对应的目标类别标签，具体包括：基于所述K个候选类别标签的文本信息和所述K个候选类别标签的类别层次结构，生成所述K个候选类别标签对应的类别标签树；所述类别标签树的节点为候选类别标签中的文本单元；当通过所述文本分类模型预测所述目标文本的类别时，限定所述文本分类模型基于所
述类别标签树的结构以及所述类别标签树包含的节点依次输出多个文本单元，得到所述目标文本对应的目标类别标签。6.根据权利要求4所述的方法，其特征在于，所述向量转换模型为通过以下步骤训练获得的：获取包括多个语句的训练文本；从所述训练文本中确定目标语句，并从所述训练文本中将所述目标语句的相邻语句确定为所述目标语句对应的正样本语句，从所述训练文本中将除所述目标语句和所述正样本语句以外的任一剩余语句确定为所述目标语句对应的负样本语句；所述目标语句为所述训练文本中的任一语句；基于所述目标语句、所述正样本...

【专利技术属性】
技术研发人员：杨韬，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人