文本分类模型的训练方法、文本分类方法及装置制造方法及图纸

技术编号:37664080 阅读:28 留言:0更新日期:2023-05-26 04:21
本公开提供了一种文本分类模型的训练方法、文本分类方法及装置,该方法包括:获取待分类的文本;基于训练好的文本分类模型提取所述文本的特征以获得所述文本的句子表示;对所述文本的句子表示进行聚类以获取针对所述文本的句子表示的聚类簇;确定聚类簇的簇标签作为所述文本的分类标签。所述文本的分类标签。所述文本的分类标签。

【技术实现步骤摘要】
文本分类模型的训练方法、文本分类方法及装置


[0001]本公开涉及自然语言处理领域,尤其涉及一种文本分类模型的训练方法、文本分类方法及装置。

技术介绍

[0002]文本分类是自然语言处理(Natural Language Processing,NLP)中最基本、最重要的任务之一。它的主要作用是对一句话或者一段文本进行归类,还可基于分类后的文本挖掘文本所表现出的意图。在文本分类模型的训练和应用中,需要利用文本的样本数据对模型进行训练与优化。当样本中包含无标签样本时,可以应用半监督学习方式进行模型训练。但是,半监督学习算法能获得的信息全部来自有标签数据的监督信息和无标签数据的一致性信息,仅使用少量标签数据得到的特征表示能力不强,聚类簇之间的区分度不高。基于对比学习的聚类算法可通过构建正负样本来增强聚类结果的簇之间的区分度,但基于对比学习的聚类算法由于不能充分利用关键且有价值的有标签数据,导致对比学习没有利用到特定场景下的带标签样本的信息,聚类结果的簇内样本的相似度不足,无法反映分类标签信息。

技术实现思路

[0003]根据本公开的第本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本分类模型的训练方法,其特征在于,包括:使用训练样本集中的带有第一分类标签的有标签样本训练文本分类模型,其中,所述训练样本集还包括不具有标签的无标签样本;基于训练后的文本分类模型提取所述训练样本集中的所有样本的特征;对所述训练样本集的无标签样本的特征进行聚类,得到针对所述训练样本集的无标签样本的第二分类标签;根据所述训练样本集的每个样本的分类损失和对比损失之和来调整训练后的文本分类模型的参数;其中,所述训练样本集中的有标签样本的分类损失是基于针对有标签样本的特征的分类结果和第一分类标签确定的,所述训练样本集中的无标签样本的分类损失是基于针对无标签样本的特征的分类结果和第二分类标签确定的,所述训练样本集中的每个样本的对比损失基于针对每个样本的对比学习被确定。2.如权利要求1所述的方法,其特征在于,所述对比损失对应于第一权重,所述分类损失对应于第二权重,所述第一权重和所述第二权重是基于训练样本集中的样本和所述样本的增强样本之间的相似度确定的,所述样本的增强样本是通过对所述样本进行数据增强而得到的。3.如权利要求2所述的方法,其特征在于,所述第一权重与所述样本和所述样本被数据增强后的增强样本之间的相似度成反比,所述第二权重与所述样本和所述样本被数据增强后的增强样本之间的相似度成正比。4.一种文本分类方法,其特征在于,包括:获取待分类文本;将所述待分类文本输入文本分类模型进行特征提取,得到所述待分类文本的句子表示;对所述待分类文本的句子表示进行聚类,得到针对所述待分类文本的句子表示的聚类簇;确定所述聚类簇的簇标签,并将所述簇标签作为所述待分类文本的分类标签;其中,所述文本分类模型是基于如权利要求1

3中的任意一个所述的训练方法训练得到的。5.如权利要求4所述的方法,其特征在于,所述确定所述聚类簇的簇标签,包括:确定所述聚类簇中的代表性句子表示,以及基于所述代表性句子表示确定聚类簇的簇标签。6.如权利要求5所述的方法,其特征在于,通过K均值聚类算法对所述待分类文本的句子表示进行聚类;其中,所述确定所述聚类簇中的代表性句子表示包括:计...

【专利技术属性】
技术研发人员:杨森蒋宁肖冰李宽
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1