【技术实现步骤摘要】
多标签文本分类及模型训练方法、装置、设备及存储介质
本专利技术涉及人工智能
,更具体地说,涉及一种多标签文本分类及模型训练方法、装置、设备及存储介质。
技术介绍
文本分类在信息检索以及情感分析等诸多领域均有广泛应用。文本分类是对给定文本分配正确的标签。其中,多标签文本分类(Multi-LabelTextClassification,MLTC)是一种较为常见的文本分类方式。在多标签文本分类中,每个给定文本会与多个标签相关联,即将多个标签分配给该给定文本。如,一篇新闻文章是往往含有丰富的语义,使得该新闻文章既可能属于“体育”类新闻,又可能属于“经济”类新闻,那么就需要给该篇新闻文章标记上“经济”和“文化”两个标签。目前,多标签文本分类的应用日益广泛。但是多标签文本分类的精准度普遍偏低,因此,如何能够提升多标签文本分类的准确性是本领域技术人员需要解决的技术问题。
技术实现思路
有鉴于此,为解决上述问题,本专利技术提供一种多标签文本分类及模型训练方法、装置、设备及存储介质,以提高多标签文本分 ...
【技术保护点】
1.一种文本分类模型训练方法,其特征在于,包括:/n获得多个文本样本以及所述文本样本标注的标签集,所述文本样本的标签集包括:标注有与所述文本样本的相关性的多个标签,所述文本样本包括由至少一个字符构成的字符序列;/n针对每个所述文本样本,基于所述文本样本的字符序列和所述文本样本的标签集中各标签组成的标签序列,并利用待训练的网络模型,确定所述文本样本的相关性预测特征和所述标签序列中各标签的标签预测特征,所述文本样本的相关性预测特征用于表征预测出的所述文本样本的标签序列中各标签与所述文本样本的相关性;/n针对每个所述文本样本,从所述文本样本的标签集中选取出至少一个标签样本组,基于 ...
【技术特征摘要】
1.一种文本分类模型训练方法,其特征在于,包括:
获得多个文本样本以及所述文本样本标注的标签集,所述文本样本的标签集包括:标注有与所述文本样本的相关性的多个标签,所述文本样本包括由至少一个字符构成的字符序列;
针对每个所述文本样本,基于所述文本样本的字符序列和所述文本样本的标签集中各标签组成的标签序列,并利用待训练的网络模型,确定所述文本样本的相关性预测特征和所述标签序列中各标签的标签预测特征,所述文本样本的相关性预测特征用于表征预测出的所述文本样本的标签序列中各标签与所述文本样本的相关性;
针对每个所述文本样本,从所述文本样本的标签集中选取出至少一个标签样本组,基于所述标签样本组中各标签的所述标签预测特征,并利用待训练的分类器,确定所述标签样本组的预测相关类别,所述标签样本组包括至少两个标签,所述预测相关类别用于表征所述标签样本组中各标签的相关性是否相同;
基于各文本样本的相关性预测特征以及各文本样本的标签序列中各标签实际标注的相关性,确定所述网络模型的第一损失函数值;
基于各文本样本的所述标签样本组的实际相关类别以及预测相关类别,确定所述分类器的第二损失函数值,所述文本样本的标签样本组的实际相关类别表征所述文本样本的标签样本组中各标签实际标注的相关性是否相同;
如基于所述第一损失函数值和第二损失函数值确定出尚未达到训练结束条件,则调整所述网络模型和分类器的内部参数,并继续训练,直至达到所述训练结束条件,将训练出的网络模型确定为多标签文本分类模型。
2.根据权利要求1所述的方法,其特征在于,所述基于各文本样本的相关性预测特征以及各文本样本的标签序列中各标签实际标注的相关性,确定所述网络模型的第一损失函数值,包括:
针对每个文本样本,将所述文本样本的相关性预测特征输入到待训练的全连接网络层,得到所述全连接网络层预测出的所述文本样本的标签序列中各标签与所述文本样本之间的预测相关性;
基于各文本样本的标签序列中各标签的预测相关性和实际标注的相关性,确定所述网络模型的第一损失函数值。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述文本样本的字符序列和所述文本样本的标签集中各标签组成的标签序列,并利用待训练的网络模型,确定所述文本样本的相关性预测特征和所述标签序列中各标签的标签预测特征,包括:
基于所述文本样本的字符序列以及文本样本的标签集中各标签组成的标签序列,构建输入特征序列;其中,所述输入特征序列中包括字符向量序列,标签向量序列,以及设置在所述字符向量序列之前的分离符,所述字符向量序列为由所述字符序列中各个字符的字符向量组成,所述标签向量序列为由所述标签序列中各个标签的标签向量组成;
将所述输入特征序列输入到待训练的网络模型,得到所述网络模型输出的输出特征序列,所述输出特征序列包括所述分离符的输出特征以及所述标签序列中各标签的标签预测特征,所述分离符的输出特征用于表示所述文本样本的相关性预测特征,所述网络模型为基于变换器的双向编码表征BERT模型。
4.根据权利要求1所述的方法,其特征在于,所述文本样本的标签集包括:第一标签集和第二标签集,所述第一标签集包括:被标注为与所述文本样本相关的多个第一标签,所述第二标签集包括:被标注为与所述文本样本不相关的多个第二标签;
所述从所述文本样本的标签集中选取出至少一个标签样本组,包括:
从所述文本样本的标签集中选取出至少一个第一标签样本组和至少一个第二标签样本组,所述第一标签样本组包括:来自所述第一标签集的两个第一标签,所述第二标签样本组包括:所述第一标签集中的一个第一标签以及所述第二标签集中的一个第二标签。
5.根据权利要求1所述的方法,其特征在于,所述文本样本的标签集包括:第一标签集和第二标签集,所述第一标签集包括:被标注为与所述文本样本相关的多个第一标签,所述第二标签集包括:被标注为与所述文本样本不相关的多个第二标签;
所述从所述文本样本的标签集中选取出至少一个标签样本组,包括:
从所述文本样本的第一标签集中选取出一标签子集,所述标签子集包括所述第一标签集中至少两个第一标签;
从所述标签集中所述标签子集之外的标签中选取出至少一个标签,并将选取出的每个标签分别与所述标签子集组成一个标签样本组,得到至少一个标签样本组;
所述基于所述标签样本组中各标签的所述标签预测特征,并利用待训练的分类器,确定所述标签样本组的预测相关类别,包括:
将所述标签样本组中所述标签子集中各第一标签的标签预测特征的平均值确定为所述标签子集的标签预测特征;
基于所述标签样本组中所述标签子集的标签预测特征以及所述标签样本组中所述标签子集之外的标签的标签预测特征,并利用待预测的分类器,确定所述标签样本组的预测相关类别。
6.一种多标签文本分类方法,其特征在于,...
【专利技术属性】
技术研发人员:张倩汶,闫昭,曹云波,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。