文本内容多标签分类方法与装置制造方法及图纸

技术编号:39657931 阅读:6 留言:0更新日期:2023-12-09 11:26
本申请提供一种文本内容多标签分类方法与装置,属于内容理解技术领域,所述方法包括:将待分类文本及对应的候选标签集输入标签召回模型,得到所述待分类文本对应的多个目标候选标签;基于所述待分类文本和目标候选标签构建目标输入文本,并将所述目标输入文本输入标签生成模型,得到所述待分类文本对应的分类结果标签;所述标签召回模型是基于待分类文本样本及预先确定的候选标签集训练后得到的,所述标签生成模型是基于输入文本样本及预先确定的分类结果标签训练后得到的,能够在保证准确性和效率的基础上实现面向海量标签的文本内容多标签分类

【技术实现步骤摘要】
文本内容多标签分类方法与装置


[0001]本申请涉及内容理解
,尤其涉及一种文本内容多标签分类方法与装置


技术介绍

[0002]随着预训练语言模型(如
BERT、GPT、T5、ChatGPT
等)的兴起,通过预训练语言模型在大规模文本语料集上进行无监督学习,能够学习到丰富的语言知识,并将这些知识转移给下游自然语言处理任务,通过在预训练模型的基础上进行微调,可以在文本分类等任务上获得显著的性能提升

[0003]但随着文本分类类别的急剧增加,如在信息流推荐场景下,需要对文本进行兴趣词体系分类,该体系多达上万甚至十几万类别

对于海量标签体系,针对一条文本需要从上万个甚至更多标签中选取正确的几个标签,基于目前预训练
+
微调的方式进行文本分类存在以下几个问题:
1、
训练周期长

由于标签的数量非常大,需要尽可能的针对每个标签标注一定量样本,这就导致训练样本量剧增

海量的样本针对上万个标签的拟合,模型至少训练几十个轮次才能收敛,导致模型的训练周期过长

[0004]2、
模型指标差

对头部标签(即标注样本多的标签)模型拟合的效果较好,准确率较高,但对于中部和尾部标签(即标注样本较少或没有标注样本的标签),模型的准确率较低,针对这类标签的提升也较困难,需要标注大量的样本

[0005]3、
迭代周期长
。<br/>随着业务的变化,该标签类别体系也会跟着变化

但每新增一批标签,均需要标注大量样本,重新对模型进行训练

由于标注样本总量的庞大,新增的这些样本不能保证模型在新标签上具有良好表现

因此标签体系迭代周期长,效果差

[0006]4、
未充分利用标签信息

该方式将标签以
one

hot
的形式进行编码,没有充分利用标签的语义信息


技术实现思路

[0007]针对现有技术存在的上述技术问题,本申请提供一种文本内容多标签分类方法与装置

[0008]第一方面,本申请提供一种文本内容多标签分类方法,所述方法包括:将待分类文本及对应的候选标签集输入标签召回模型,得到所述待分类文本对应的多个目标候选标签;基于所述待分类文本和目标候选标签构建目标输入文本,并将所述目标输入文本输入标签生成模型,得到所述待分类文本对应的分类结果标签;所述标签召回模型是基于待分类文本样本及预先确定的候选标签集训练后得到的,所述标签生成模型是基于输入文本样本及预先确定的分类结果标签训练后得到的

[0009]可选地,根据本申请的文本内容多标签分类方法,所述标签召回模型为语义检索模型,包括待分类文本编码模块

候选标签编码模块和目标候选标签确定模块;
所述待分类文本编码模块用于对待分类文本进行编码得到第一向量;所述候选标签编码模块用于对待分类文本对应的候选标签集进行编码得到第二向量集合;所述目标候选标签确定模块用于基于所述第一向量和所述第二向量集合确定目标候选标签

[0010]可选地,根据本申请的文本内容多标签分类方法,所述基于所述第一向量和所述第二向量集合确定目标候选标签,具体包括:确定所述第一向量与所述第二向量集合中各第二向量的相似度;基于所述第一向量与各第二向量的相似度及预设的相似度阈值,确定目标候选标签

[0011]可选地,根据本申请的文本内容多标签分类方法,所述标签召回模型的训练过程包括训练阶段和微调阶段,其中,训练阶段采用跨批次负样本策略,微调阶段采用批次内负样本策略

[0012]可选地,根据本申请的文本内容多标签分类方法,在微调阶段,当批次内出现多个标签相同的待分类文本样本时,基于样本矩阵对应的
mask
矩阵计算待分类文本样本的损失函数

[0013]可选地,根据本申请的文本内容多标签分类方法,所述基于样本矩阵对应的
mask
矩阵计算待分类文本样本的损失函数,具体包括:构建与样本矩阵相同形状的
mask
矩阵;所述
mask
矩阵中标签相同的待分类文本样本对应的位置置0,其余位置置1;将待分类文本样本对应的初始损失矩阵与所述
mask
矩阵相乘以得到待分类文本样本对应的目标损失矩阵

[0014]可选地,所述标签生成模型为大模型,用于确定各目标候选标签对应的预测概率,并基于各目标候选标签对应的预测概率确定所述待分类文本对应的分类结果标签

[0015]第二方面,本申请还提供一种文本内容多标签分类装置,所述装置包括:标签召回单元,用于将待分类文本及对应的候选标签集输入标签召回模型,得到所述待分类文本对应的多个目标候选标签;文本分类单元,用于基于所述待分类文本和目标候选标签构建目标输入文本,并将所述目标输入文本输入标签生成模型,得到所述待分类文本对应的分类结果标签;所述标签召回模型是基于待分类文本样本及预先确定的候选标签集训练后得到的,所述标签生成模型是基于输入文本样本及预先确定的分类结果标签训练后得到的

[0016]第三方面,本申请还提供一种电子设备,包括存储器

处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所提供的方法的步骤

[0017]第四方面,本申请还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所提供的方法的步骤

[0018]本申请提供的文本内容多标签分类方法与装置,所述方法包括:将待分类文本及对应的候选标签集输入标签召回模型,得到所述待分类文本对应的多个目标候选标签;基于所述待分类文本和目标候选标签构建目标输入文本,并将所述目标输入文本输入标签生
成模型,得到所述待分类文本对应的分类结果标签;所述标签召回模型是基于待分类文本样本及预先确定的候选标签集训练后得到的,所述标签生成模型是基于输入文本样本及预先确定的分类结果标签训练后得到的,能够在保证准确性和效率的基础上实现面向海量标签的文本内容多标签分类

附图说明
[0019]为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0020]图1是本申请提供的文本内容多标签分类方法的流程示意图;图2是本申请提供的标签召回模型的结构示意图;图3是本申请提供的初始损本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本内容多标签分类方法,其特征在于,所述方法包括:将待分类文本及对应的候选标签集输入标签召回模型,得到所述待分类文本对应的多个目标候选标签;基于所述待分类文本和目标候选标签构建目标输入文本,并将所述目标输入文本输入标签生成模型,得到所述待分类文本对应的分类结果标签;所述标签召回模型是基于待分类文本样本及预先确定的候选标签集训练后得到的,所述标签生成模型是基于输入文本样本及预先确定的分类结果标签训练后得到的
。2.
根据权利要求1所述的文本内容多标签分类方法,其特征在于,所述标签召回模型为语义检索模型,包括待分类文本编码模块

候选标签编码模块和目标候选标签确定模块;所述待分类文本编码模块用于对待分类文本进行编码得到第一向量;所述候选标签编码模块用于对待分类文本对应的候选标签集进行编码得到第二向量集合;所述目标候选标签确定模块用于基于所述第一向量和所述第二向量集合确定目标候选标签
。3.
根据权利要求2所述的文本内容多标签分类方法,其特征在于,所述基于所述第一向量和所述第二向量集合确定目标候选标签,具体包括:确定所述第一向量与所述第二向量集合中各第二向量的相似度;基于所述第一向量与各第二向量的相似度及预设的相似度阈值,确定目标候选标签
。4.
根据权利要求3所述的文本内容多标签分类方法,其特征在于,所述标签召回模型的训练过程包括训练阶段和微调阶段,其中,训练阶段采用跨批次负样本策略,微调阶段采用批次内负样本策略
。5.
根据权利要求4所述的文本内容多标签分类方法,其特征在于,在微调阶段,当批次内出现多个标签相同的待分类文本样本时,基于样本矩阵对应的
mask
矩阵计算待分类文本样本的损失函数
。6.
根据权...

【专利技术属性】
技术研发人员:陈旭王难薛娇冯琳郑小裕刘鹏鹤蒋树李大海
申请(专利权)人:智者四海北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1