文本内容多标签分类方法与装置制造方法及图纸

技术编号：39657931 阅读：6 留言：0更新日期：2023-12-09 11:26

本申请提供一种文本内容多标签分类方法与装置，属于内容理解技术领域，所述方法包括：将待分类文本及对应的候选标签集输入标签召回模型，得到所述待分类文本对应的多个目标候选标签；基于所述待分类文本和目标候选标签构建目标输入文本，并将所述目标输入文本输入标签生成模型，得到所述待分类文本对应的分类结果标签；所述标签召回模型是基于待分类文本样本及预先确定的候选标签集训练后得到的，所述标签生成模型是基于输入文本样本及预先确定的分类结果标签训练后得到的，能够在保证准确性和效率的基础上实现面向海量标签的文本内容多标签分类

全部详细技术资料下载

【技术实现步骤摘要】
文本内容多标签分类方法与装置

[0001]本申请涉及内容理解
，尤其涉及一种文本内容多标签分类方法与装置
。

技术介绍

[0002]随着预训练语言模型（如
BERT、GPT、T5、ChatGPT
等）的兴起，通过预训练语言模型在大规模文本语料集上进行无监督学习，能够学习到丰富的语言知识，并将这些知识转移给下游自然语言处理任务，通过在预训练模型的基础上进行微调，可以在文本分类等任务上获得显著的性能提升
。
[0003]但随着文本分类类别的急剧增加，如在信息流推荐场景下，需要对文本进行兴趣词体系分类，该体系多达上万甚至十几万类别
。
对于海量标签体系，针对一条文本需要从上万个甚至更多标签中选取正确的几个标签，基于目前预训练
+
微调的方式进行文本分类存在以下几个问题：
1、
训练周期长
。
由于标签的数量非常大，需要尽可能的针对每个标签标注一定量样本，这就导致训练样本量剧增
。
海量的样本针对上万个标签的拟合，模型至少训练几十个轮次才能收敛，导致模型的训练周期过长
。
[0004]2、
模型指标差
。
对头部标签（即标注样本多的标签）模型拟合的效果较好，准确率较高，但对于中部和尾部标签（即标注样本较少或没有标注样本的标签），模型的准确率较低，针对这类标签的提升也较困难，需要标注大量的样本
。
[0005]3、
迭代周期长
。<...

【技术保护点】

【技术特征摘要】
1.
一种文本内容多标签分类方法，其特征在于，所述方法包括：将待分类文本及对应的候选标签集输入标签召回模型，得到所述待分类文本对应的多个目标候选标签；基于所述待分类文本和目标候选标签构建目标输入文本，并将所述目标输入文本输入标签生成模型，得到所述待分类文本对应的分类结果标签；所述标签召回模型是基于待分类文本样本及预先确定的候选标签集训练后得到的，所述标签生成模型是基于输入文本样本及预先确定的分类结果标签训练后得到的
。2.
根据权利要求1所述的文本内容多标签分类方法，其特征在于，所述标签召回模型为语义检索模型，包括待分类文本编码模块
、
候选标签编码模块和目标候选标签确定模块；所述待分类文本编码模块用于对待分类文本进行编码得到第一向量；所述候选标签编码模块用于对待分类文本对应的候选标签集进行编码得到第二向量集合；所述目标候选标签确定模块用于基于所述第一向量和所述第二向量集合确定目标候选标签
。3.
根据权利要求2所述的文本内容多标签分类方法，其特征在于，所述基于所述第一向量和所述第二向量集合确定目标候选标签，具体包括：确定所述第一向量与所述第二向量集合中各第二向量的相似度；基于所述第一向量与各第二向量的相似度及预设的相似度阈值，确定目标候选标签
。4.
根据权利要求3所述的文本内容多标签分类方法，其特征在于，所述标签召回模型的训练过程包括训练阶段和微调阶段，其中，训练阶段采用跨批次负样本策略，微调阶段采用批次内负样本策略
。5.
根据权利要求4所述的文本内容多标签分类方法，其特征在于，在微调阶段，当批次内出现多个标签相同的待分类文本样本时，基于样本矩阵对应的
mask
矩阵计算待分类文本样本的损失函数
。6.
根据权...

【专利技术属性】
技术研发人员：陈旭，王难，薛娇，冯琳，郑小裕，刘鹏鹤，蒋树，李大海，
申请(专利权)人：智者四海北京技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人