文本分类方法、模型训练方法、装置及电子设备制造方法及图纸

技术编号:37473635 阅读:22 留言:0更新日期:2023-05-06 09:58
本申请实施例公开了一种文本分类方法、模型训练方法、装置及电子设备,该文本分类方法通过词嵌入模型确定候选标签的候选标签向量,然后通过聚类处理确定候选标签簇,以及确定候选标签簇的类别标签,然后将样本文本输入分类模型,先进行初步分类,在聚类得到的各个候选标签簇中确定预测标签簇,然后进行精确分类,在预测标签簇的各个候选标签中确定与样本文本对应的候选标签,通过分类模型的层次化分类来降低分类模型的复杂度,从而提高分类模型的运行效率,另外,在模型的训练过程中更新候选标签向量,一定程度上解决了多标签文本分类长尾分布问题,有效提升分类模型的准确性,可以广泛应用于人工智能、云技术等技术领域。云技术等技术领域。云技术等技术领域。

【技术实现步骤摘要】
文本分类方法、模型训练方法、装置及电子设备


[0001]本申请涉及人工智能
,特别是涉及一种文本分类方法、模型训练方法、装置及电子设备。

技术介绍

[0002]随着人工智能技术的发展,多标签文本分类已经在信息检索、情感分析、问答系统等领域得到了广泛的应用。多标签文本分类主要用于对文本进行分类识别,从而将文本划归到一个或多个标签中。
[0003]相关技术中,通常采用分类模型的编码层确定文本的表征向量,然后利用分类层对表征向量进行映射处理,确定表征向量对应的标签类别,但是,在处理大规模的多标签分类任务时,由于分类的标签类别数量庞大,为了保证分类模型的预测能力,需要采用复杂度较高的分类模型,分类模型的运行效率较低。

技术实现思路

[0004]以下是对本申请详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0005]本申请实施例提供了一种文本分类方法、模型训练方法、装置及电子设备,能够降低分类模型的复杂度,从而提高分类模型的运行效率,还能够提高标签分类的准确性。
[0006]一方面,本申请实本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:获取样本文本和多个候选标签,其中,所述样本文本携带有多个样本标签;基于词嵌入模型确定各个所述候选标签的候选标签向量,根据所述候选标签向量对多个所述候选标签进行聚类处理得到多个候选标签簇,基于所述样本标签确定各个所述候选标签簇的类别标签;将所述样本文本输入分类模型,基于所述分类模型从多个所述候选标签簇中确定预测标签簇,再从所述预测标签簇中确定与所述样本文本对应的所述候选标签;根据所述预测标签簇的确定结果和所述类别标签确定第一损失,根据与所述样本文本对应的所述候选标签的确定结果和所述样本标签确定第二损失;根据所述第一损失和所述第二损失,对所述词嵌入模型和所述分类模型进行联合训练;获取目标文本,将所述目标文本输入训练后的所述分类模型,基于训练后的所述分类模型确定所述目标文本的分类结果。2.根据权利要求1所述的文本分类方法,其特征在于,所述分类模型包括编码层和分类层;所述将所述样本文本输入分类模型,基于所述分类模型从多个所述候选标签簇中确定预测标签簇,包括:将所述样本文本输入所述编码层,得到样本表征向量;将所述样本表征向量输入所述分类层,确定各个所述候选标签簇的第一预测分数;对各个所述第一预测分数分别进行归一化处理,得到各个所述候选标签簇的第一预测概率;在所述第一预测概率大于等于预设的第一概率阈值的情况下,将所述第一预测概率对应的所述候选标签簇作为预测标签簇。3.根据权利要求2所述的文本分类方法,其特征在于,所述预测标签簇的确定结果包括各个所述候选标签簇的第一预测概率;所述根据所述预测标签簇的确定结果和所述类别标签确定第一损失,包括:根据各个所述候选标签簇的所述类别标签,确定各个所述候选标签簇的目标类别概率;计算各个所述目标类别概率和对应的所述第一预测概率之间的交叉熵损失,得到多个类别损失;将所有所述类别损失之和作为第一损失。4.根据权利要求2所述的文本分类方法,其特征在于,所述从所述预测标签簇中确定与所述样本文本对应的所述候选标签,包括:遍历所述预测标签簇中的各个所述候选标签,计算所述样本表征向量和所述候选标签的候选标签向量之间的相似度;对所述相似度进行归一化处理,得到所述候选标签的第二预测概率;在所述第二预测概率大于等于预设的第二概率阈值的情况下,将所述第二预测概率对应的所述候选标签作为与所述样本文本对应的所述候选标签。5.根据权利要求4所述的文本分类方法,其特征在于,与所述样本文本对应的所述候选标签的确定结果包括所述预测标签簇中的各个所述候选标签的第二预测概率;所述根据与
所述样本文本对应的所述候选标签的确定结果和所述样本标签确定第二损失,包括:根据所述样本标签,确定所述预测标签簇中各个所述候选标签的目标标签概率;计算各个所述目标标签概率和对应的所述第二预测概率之间的交叉熵损失,得到多个标签损失;将所有所述标签损失之和作为第二损失。6.根据权利要求2所述的文本分类方法,其特征在于,所述将所述样本文本输入所述编码层,得到样本表征向量,包括:对所述样本文本进行分词处理,得到文本分词序列,其中,所述文本分词序列包括多个词语;为所述文本分词序列的首端添加起始标记,以及为文本分词序列的末端结束标记,得到标记分词序列;对所述标记分词序列进行词嵌入处理,得到分词向量序列;基于自注意力机制,利用所述编码层对所述分词向量序列进行特征提取,得到特征向量序列,其中,所述特征向量序列包括所述标记分词序列中各个词语的特征向量;基于自注意力机制,对各个所述特征向量进行融合处理,得到样本表征向量。7.根据权利要求6所述的文本分类方法,其特征在于,所述基于自注意力机制,对各个所述特征向量进行融合处理,得到样本表征向量,包括:根据预设的自注意力函数和所述特征向量,计算得到各个所述特征向量的注意力分数;根据预设的归一化指数函数和所述注意力分数,计算得到各个所述特征向量的注意力权重;基于所述注意力权...

【专利技术属性】
技术研发人员:杨韬
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1