System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本分类模型的训练方法及装置、电子设备、存储介质制造方法及图纸_技高网

文本分类模型的训练方法及装置、电子设备、存储介质制造方法及图纸

技术编号:40299493 阅读:7 留言:0更新日期:2024-02-07 20:47
本公开提供了一种文本分类模型的训练方法及装置、电子设备、存储介质,该方法包括:获取样本数据以及样本数据对应的标注文本类别标签;将样本数据以及该标注文本类别标签输入初始文本分类模型中进行文本类别预测处理,得到样本数据对应的多个预测文本类别标签;针对多个预测文本类别标签,通过获取每一预测文本类别标签与具备对应关系的标准文本类别标签之间的误差值作为第一初始损失值,得到多个第一初始损失值;根据多个第一初始损失值,得到目标损失值;根据目标损失值对初始文本分类模型的参数进行调整,得到文本分类模型。根据本公开实施例能够快速训练得到收敛的文本分类模型,以及还可以提升训练得到的文本分类模型的分类结果的准确性。

【技术实现步骤摘要】

本公开涉及计算机,特别涉及一种文本分类模型的训练方法、文本分类方法及装置、电子设备、存储介质。


技术介绍

1、目前,在训练文本分类模型时,通常训练得到的文本分类模型是用于将文本样本分类到单个文本类别中,在该种文本分类模型的训练过程中,仅需要为文本样本的标注设置一个文本类别标签,并在训练过程中基于预测得到的文本类别标签与标注中的文本类别标签之间的误差计算损失值,进而根据该损失值对模型进行调优。

2、然而,在层级多标签文本分类任务中,需要使用文本分类模型同时预测得到文本的多个具有层次结构的文本类别标签,然而由于具有层次结构的文本类别标签在为文本样本的文本类别带来层次关系的同时,还大幅增加了计算复杂度,因此,若使用上述训练单文本类别分类的模型训练方法训练用于进行层级多标签文本分类任务的文本分类模型,则会对模型学习造成困难,从而导致模型预测结果不准确,甚至可能导致模型无法预测的问题。


技术实现思路

1、本公开提供一种文本分类模型的训练方法及装置、电子设备、存储介质

2、第一方面,本公开提供了一种文本分类模型的训练方法,该文本分类模型的训练方法包括:

3、获取样本数据以及所述样本数据对应的标注文本类别标签;其中,所述标注文本类别标签为多个标准文本类别标签,所述多个标准文本类别标签之间满足预设层级关系,所述预设层级关系为每一层级包括一个文本类别标签,且相邻层级的两个文本类别标签之间为包含关系;

4、将所述样本数据以及所述样本数据对应的标注文本类别标签输入初始文本分类模型中进行文本类别预测处理,得到所述样本数据对应的多个预测文本类别标签;其中,所述多个预测文本类别标签之间满足所述预设层级关系;

5、针对所述多个预测文本类别标签,通过获取每一预测文本类别标签与具备对应关系的标准文本类别标签之间的误差值作为第一初始损失值,得到多个第一初始损失值;其中,所述对应关系为标准文本类别标签的标签层级与预测文本类别标签的标签层级属于同一层级,所述第一初始损失值用于表示所述初始文本分类模型在所述第一初始损失值对应的标签层级上的预测损失;

6、根据所述多个第一初始损失值,得到目标损失值;

7、根据所述目标损失值对所述初始文本分类模型的参数进行调整,得到文本分类模型。

8、第二方面,本公开提供了一种文本分类方法,该文本分类方法包括:

9、获取待分类的目标文本数据;

10、将所述目标文本数据输入文本分类模型中进行文本类别预测处理,得到所述目标文本数据对应的多个目标文本类别标签,其中,所述文本分类模型是根据第一方面的文本分类模型的训练方法得到的。

11、第三方面,本公开提供了一种文本分类模型的训练装置,该文本分类模型的训练装置包括:

12、样本数据获取单元,用于获取样本数据以及所述样本数据对应的标注文本类别标签;其中,所述标注文本类别标签为多个标准文本类别标签,所述多个标准文本类别标签之间满足预设层级关系,所述预设层级关系为每一层级包括一个文本类别标签,且相邻层级的两个文本类别标签之间为包含关系;

13、预测单元,用于将所述样本数据以及所述样本数据对应的标注文本类别标签输入初始文本分类模型中进行文本类别预测处理,得到所述样本数据对应的多个预测文本类别标签;其中,所述多个预测文本类别标签之间满足所述预设层级关系;

14、第一初始损失值获取单元,用于针对所述多个预测文本类别标签,通过获取每一预测文本类别标签与具备对应关系的标准文本类别标签之间的误差值作为第一初始损失值,得到多个第一初始损失值;其中,所述对应关系为标准文本类别标签的标签层级与预测文本类别标签的标签层级属于同一层级,所述第一初始损失值用于表示所述初始文本分类模型在所述第一初始损失值对应的标签层级上的预测损失;

15、目标损失值获取单元,用于根据所述多个第一初始损失值,得到目标损失值;

16、调整单元,用于根据所述目标损失值对所述初始文本分类模型的参数进行调整,得到文本分类模型。

17、第四方面,本公开提供了一种文本分类装置,该文本分类装置包括:

18、文本数据获取单元,用于获取待分类的目标文本数据;

19、分类单元,用于将所述目标文本数据输入文本分类模型中进行文本类别预测处理,得到所述目标文本数据对应的多个目标文本类别标签,其中,所述文本分类模型是根据第一方面的文本分类模型的训练方法得到的。

20、第五方面,本公开提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面的文本分类模型的训练方法或第二方面的文本分类方法。

21、第六方面,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器执行时实现上述第一方面的文本分类模型的训练方法或第二方面的文本分类方法。

22、本公开所提供的实施例,在训练文本分类模型的过程中,通过将样本数据以及样本数据对应的标注文本类别标签输入初始文本分类模型中进行文本分类预测处理,得到该样本数据对应的、满足预设层级关系的多个预测文本类别标签;之后,在计算模型损失值时,通过获取每一预测文本类别标签与具备对应关系的标准文本类别标签之间的误差值作为第一初始损失值,得到多个第一初始损失值,并基于该多个第一初始损失值得到目标损失值,进而根据该目标损失值对初始文本分类模型的参数进行调整,即可得到文本分类模型。

23、由于与每一预测文本类别标签具备对应关系的标准文本类别标签,作为该样本数据的标注文本类别标签,该标准文本类别标签中的标签层级与该预测文本类别标签的标签层级属于同一层级,因此,基于该多个第一初始损失值,可以分别得到初始文本分类模型在预测每一标签层级上的文本类别标签时的预测损失,基于该多个第一初始损失值得到的目标损失值可以表示模型在当前次训练轮次之后的训练轮次中在各标签层级上的优化方向,因此基于该目标损失值对初始文本分类模型的参数进行调整,可以快速训练得到收敛的文本分类模型,同时由于在训练过程中会对每一标签层级进行针对性的优化,所以该方法还可以提升训练得到的文本分类模型的分类结果的准确性。

24、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种文本分类模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述多个第一初始损失值,得到目标损失值,包括:

3.根据权利要求2所述的方法,其特征在于,所述对所述多个第一初始损失值分别进行校正处理,得到多个第一校正损失值,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述多个权重值和/或所述多个衰减系数,对所述多个第一初始损失值分别进行校正处理,得到多个第一校正损失值,包括:

5.根据权利要求3所述的方法,其特征在于,所述获取第i次训练轮次中与所述多个第一初始损失值对应的多个权重值,包括:

6.根据权利要求3所述的方法,其特征在于,所述获取第i次训练轮次中与所述多个第一初始损失值对应的多个权重值,包括:

7.根据权利要求3所述的方法,其特征在于,所述获取第i次训练轮次中与所述多个第一初始损失值对应的多个衰减系数,包括:

8.根据权利要求7所述的方法,其特征在于,所述获取所述待处理损失值对应的实时衰减系数,包括:

9.根据权利要求8所述的方法,其特征在于,所述根据所述历史初始损失值和所述待处理损失值,确定所述待处理损失值对应的实时衰减系数,包括:

10.一种文本分类方法,其特征在于,包括:

11.一种文本分类装置,其特征在于,包括:

12.一种电子设备,其特征在于,包括:

13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-10中任一项所述的方法。

...

【技术特征摘要】

1.一种文本分类模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述多个第一初始损失值,得到目标损失值,包括:

3.根据权利要求2所述的方法,其特征在于,所述对所述多个第一初始损失值分别进行校正处理,得到多个第一校正损失值,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述多个权重值和/或所述多个衰减系数,对所述多个第一初始损失值分别进行校正处理,得到多个第一校正损失值,包括:

5.根据权利要求3所述的方法,其特征在于,所述获取第i次训练轮次中与所述多个第一初始损失值对应的多个权重值,包括:

6.根据权利要求3所述的方法,其特征在于,所述获取第i次训练轮次中与所述多个第一初始损失值对应的多个权...

【专利技术属性】
技术研发人员:范智超蒋宁陆全夏粉吴海英
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1