文本分类方法、装置、设备、介质及程序产品制造方法及图纸

技术编号：39280294 阅读：8 留言：0更新日期：2023-11-07 10:54

本申请提供了一种文本分类方法、装置、设备、介质及程序产品，涉及人工智能技术领域，该方法包括：对待分类文本进行处理，得到待分类文本的各个分词各自的编码表示；在预测待分类文本在目标层的分类结果时，获取待分类文本在目标层的上一层的第一隐藏状态表示；确定各个分词的编码表示对应的权重；基于各个分词的编码表示对应的权重对各个分词的编码表示进行聚合，得到聚合结果；基于聚合结果与第一隐藏状态表示，得到待分类文本在目标层的第二隐藏状态表示；基于第二隐藏状态表示预测待分类文本在目标层的分类结果；从而可以提高分类预测准确度。准确度。准确度。

全部详细技术资料下载

【技术实现步骤摘要】
文本分类方法、装置、设备、介质及程序产品

[0001]本申请实施例涉及人工智能(Artificial Intelligence，AI)
，尤其涉及一种文本分类方法、装置、设备、介质及程序产品。

技术介绍

[0002]层级文本分类(Hierarchical Text Classification，HTC)也被称为层次文本分类，指的是基于给定的层次标签体系(即类目体系，该类目体系典型的是树状结构或者有向无环图结构)预测待分类文本在类目体系中各个层的分类结果(即标签)，也就是预测待分类文本的标签路径。基于此，HTC是一个多标签分类任务。
[0003]相关技术中，训练设备可以为类目体系的每个层级训练一个分类器。预测设备在对待分类文本进行分类结果预测时，通过各个层的分类器自上向下依次对待分类文本进行分类，其中，预测设备在预测待分类文本在任一层的分类结果时，可以结合该层的上一层的分类信息来预测该层的分类结果。然而，这种文本分类方法导致分类预测准确度较低的问题。

技术实现思路

[0004]本申请提供一种文本分类方法、装置、设备、介质及程序产品，从而可以提高分类预测准确度。
[0005]第一方面，本申请实施例提供一种文本分类方法，包括：对待分类文本进行处理，得到待分类文本的各个分词各自的编码表示；在预测待分类文本在目标层的分类结果时，获取待分类文本在目标层的上一层的第一隐藏状态表示；确定各个分词的编码表示对应的权重；基于各个分词的编码表示对应的权重对各个分词的编码表示进行聚合，得到聚合结果；基于...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法，其特征在于，包括：对待分类文本进行处理，得到所述待分类文本的各个分词各自的编码表示；在预测所述待分类文本在目标层的分类结果时，获取所述待分类文本在所述目标层的上一层的第一隐藏状态表示；确定所述各个分词的编码表示对应的权重；基于所述各个分词的编码表示对应的权重对所述各个分词的编码表示进行聚合，得到聚合结果；基于所述聚合结果与所述第一隐藏状态表示，得到所述待分类文本在所述目标层的第二隐藏状态表示；基于所述第二隐藏状态表示预测所述待分类文本在所述目标层的分类结果；其中，所述目标层是类目体系中的任一层；所述第一隐藏状态表示用于预测所述待分类文本在所述上一层的分类结果；所述待分类文本在所述类目体系的第0层的隐藏状态表示是预设编码表示。2.根据权利要求1所述的方法，其特征在于，所述确定所述各个分词的编码表示对应的权重，包括：基于所述第一隐藏状态表示和所述各个分词的编码表示确定所述各个分词的编码表示对应的权重。3.根据权利要求2所述的方法，其特征在于，所述基于所述第一隐藏状态表示和所述各个分词的编码表示确定所述各个分词的编码表示对应的权重，包括：计算所述第一隐藏状态表示和所述各个分词的编码表示之间的相似度，得到所述各个分词的编码表示对应的权重。4.根据权利要求1所述的方法，其特征在于，所述确定所述各个分词的编码表示对应的权重，包括：确定所述目标层在所述类目体系中的层索引；基于所述目标层在所述类目体系中的层索引确定所述各个分词的编码表示对应的权重；其中，所述类目体系的各个层索引与部分分词的编码表示具有对应关系；层索引越小，对应越靠前的分词，层索引越大，对应越靠后的分词；层索引对应的部分分词的编码表示的权重之和大于所述各个分词中除所述部分分词以外的其余分词的编码表示的权重之和。5.根据权利要求1
‑
4任一项所述的方法，其特征在于，所述文本分类方法是通过将所述待分类文本输入至文本分类模型实现的。6.根据权利要求5所述的方法，其特征在于，所述文本分类模型包括：分词层、嵌入层和编码层；所述对待分类文本进行处理，得到所述待分类文本的各个分词各自的编码表示，包括：通过所述分词层对所述待分类文本进行分词，得到所述各个分词，并通过所述分词层将所述各个分词进行分词转换，得到所述各个分词对应的标识；通过所述嵌入层对所述各个分词对应的标识进行标识转换，得到所述各个分词对应的词向量；通过所述编码层对所述各个分词对应的词向量进行编码，得到所述各个分词各自的编码表示。7.根据权利要求5所述的方法，其特征在于，所述文本分类模型还包括：表征层；所述表征层包括：聚合子层和循环神经网络子层；
所述基于所述各个分词的编码表示对应的权重对所述各个分词的编码表示进行聚合，得到聚合结果，包括：将所述各个分词的编码表示对应的权重和所述各个分词的编码表示输入所述聚合子层，得到所述聚合结果；基于所述聚合结果与所述第一隐藏状态表示，得到所述待分类文本...

【专利技术属性】
技术研发人员：熊志远，杨赛勇，陈雁峰，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人