System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本分类模型的训练方法、文本分类方法及相关设备技术_技高网

文本分类模型的训练方法、文本分类方法及相关设备技术

技术编号:40295078 阅读:6 留言:0更新日期:2024-02-07 20:44
本申请公开了一种文本分类模型的训练方法、文本分类方法及相关设备,用于提高文本分类模型的训练效率,减少模型灾难性遗忘以提升文本分类模型的训练效果。所述训练方法包括:获取多个训练数据集;通过各个训练数据集对应的文本分类模型对各个训练数据集进行分类,得到各个训练数据集中的样本文本的预测类别;基于各个训练数据集中的样本文本的预测类别及类别标签,优化各个训练数据集对应的文本分类模型中的适配模块,以得到各个训练数据集对应的第一目标适配模块;对多个训练数据集各自对应的第一目标适配模块携带的模型参进行融合处理,以得到第二目标适配模块,并在初始的预训练语言模型中添加第二目标适配模块,得到目标文本分类模型。

【技术实现步骤摘要】

本申请涉及自然语言处理,尤其涉及一种文本分类模型的训练方法、文本分类方法及相关设备


技术介绍

1、文本分类任务是在自然语言处理(natural language processing,nlp)领域内比较常见但特别重要的一类任务,其已广泛应用于意图识别、情感分类等领域。目前,结合预训练模型,文本分类任务已经取得较好的效果,但其缺陷是训练一个新的文本分类模型需要的时间较长。特别是在类别较多的场景下,以及在真实业务中类别需要不断扩充的场景下,需要不断添加新类别的数据,并结合就类别的数据重新训练模型,来保证模型的效果。

2、相关技术中的文本分类方案,是在第一批标注的旧文本数据上进行模型训练,在业务场景发现新类别的情况下,对新类别数据进行标注,然后将旧类别数据和新类别数据合并在一起,重新训练模型。然而,每次需要新增类别,就需要结合新旧分类数据对模型进行重新训练,这样是极其耗费时间的,效率较低;而且,直接在模型上对模型进行微调,会导致模型对旧知识的遗忘加快,出现灾难性遗忘。


技术实现思路

1、本申请实施例的目的是提供一种文本分类模型的训练方法、文本分类方法及相关设备,用于提高文本分类模型的训练效率,减少模型灾难性遗忘以提升文本分类模型的训练效果。

2、为了实现上述目的,本申请实施例采用下述技术方案:

3、第一方面,本申请实施例提供一种文本分类模型的训练方法,包括:

4、获取多个分类任务下的样本文本及所述样本文本的类别标签;

5、通过各个分类任务对应的文本分类模型,对各个分类任务下的样本文本执行相应的分类任务,得到各个分类任务下的样本文本的预测类别,各个文本分类模型是在预训练语言模型中添加适用于该分类任务的适配模块得到;

6、基于各个分类任务下的样本文本的预测类别及类别标签,优化各个文本分类模型中的适配模块,以得到适用于各个分类任务的第一目标适配模块及所述第一目标适配模块对应的权重;

7、基于预训练语言模型、适用于各个分类任务的第一目标适配模块及所述第一目标适配模块对应的权重,生成适用于所述多个分类任务的目标文本分类模型。

8、本申请实施例提供的文本分类模型的训练方法,结合了增量学习和adapter技术,将分别针对历史训练数据集和每个新增训练数据集的训练任务看作是预训练语言模型下游的一个分类任务;在此基础上,针对每个训练数据集,通过在初始的预训练语言模型中添加适配模块(adapter)的方式引入少量参数,这些参数是初始的预训练语言模型进行文本分类所需的模型参数,进而在下游进行微调时,采用增量学习技术,基于该训练数据集中的样本文本及样本文本的类别标签优化添加的适配模块,相当于只使用训练数据集本身调整针对该训练数据集引入的少量参数,以得到最终能够适用于该训练数据集的适配模块,而保持初始的预训练语言模型的已有参数不变,进而不仅可以保证原来的知识不被遗忘,还可以极大减少针对该训练数据的训练时间,提高针对该训练数据的训练效率;另外,针对每个训练数据集的训练任务都是在初始的预训练语言模型的基础上通过添加和优化适配模块进行的,不同训练数据集的训练过程是独立的,相互之间不受影响,有利于进一步提高文本分类模型的训练效果,使得各个训练数据集对应的文本分类模型都能够充分学习该训练数据集的相关知识而具有较高的分类准确性;进一步,通过融合所有训练数据集各自对应的适配模块携带的模型参数以得到第二目标适配模块,并在初始的预训练语言模型中添加第二目标适配模块,得到适用于所有训练数据的目标文本分类模型,不仅使得目标文本分类模型能够在不遗忘已有分类知识的基础上掌握新分类知识,从而可以保证目标文本分类模型的分类性能,还使得最终生成的目标文本分类模型复用了所有训练数据集的相关适配模块,而每个训练数据集对应的相关适配模块仅在每个训练数据集独立训练时被优化,在后续生成目标文本分类模型的过程中不需要再被优化,从而可以提高文本分类模型的整体训练效率。

9、第二方面,本申请实施例提供一种文本分类方法,包括:

10、获取待处理的目标文本;

11、将所述目标文本输入目标文本分类模型,得到所述目标文本的预测类别,其中,所述目标文本分类模型为基于第一方面所述的文本分类模型的训练方法训练得到。

12、本申请实施例提供的文本分类方法,利用上述优化方法得到的目标文本分类模型可以准确对待处理文本进行文本分类,从而有利于提高文本分类准确性。

13、第三方面,本申请实施例提供一种文本分类模型的训练装置,包括:

14、第一获取单元,用于获取多个训练数据集,所述多个训练数据集包括历史训练数据集和至少一个新增训练数据集,每个训练数据集包括本文本及所述样本文本的类别标签;

15、第一分类单元,用于通过各个训练数据集对应的文本分类模型,对各个训练数据集中的样本文本进行分类,得到各个训练数据集中的样本文本的预测类别,各个文本分类模型是在初始的预训练语言模型中添加适配模块得到,携带有所述初始的预训练语言模型进行文本分类所需的模型参数;

16、优化单元,用于基于所述各个训练数据集中的样本文本的预测类别及类别标签,优化所述各个训练数据集对应的文本分类模型中的适配模块,以得到各个训练数据集对应的第一目标适配模块;

17、融合单元,用于对所述多个训练数据集各自对应的第一目标适配模块携带的模型参数进行融合处理,以得到第二目标适配模块,并于在所述初始的预训练语言模型中添加所述第二目标适配模块,得到目标文本分类模型。

18、第四方面,本申请实施例提供一种文本分类装置,包括:

19、第二获取单元,用于获取待处理的目标文本;

20、第二分类单元,用于将所述目标文本输入目标文本分类模型,得到所述目标文本的预测类别,其中,所述目标文本分类模型为基于第一方面所述的文本分类模型的训练方法训练得到。

21、第五方面,本申请实施例提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的文本分类模型的训练方法;或者,所述处理器被配置为执行所述指令,以实现如第二方面所述的文本分类方法。

22、第六方面,本申请实施例提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的文本分类模型的训练方法;或者,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第二方面所述的文本分类方法。

本文档来自技高网...

【技术保护点】

1.一种文本分类模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述初始的预训练语言模型包括多个注意力模块,所述各个文本分类模型是在所述初始的预训练语言模型的每个注意力模块中添加所述适配模块得到。

3.根据权利要求2所述的方法,其特征在于,所述通过各个训练数据集对应的文本分类模型,对各个训练数据集中的样本文本进行分类,得到各个训练数据集中的样本文本的预测类别,包括:

4.根据权利要求3所述的方法,其特征在于,所述对所述多个训练数据集各自对应的第一目标适配模块携带的模型参数进行融合处理,以得到第二目标适配模块,包括:

5.根据权利要求3所述的方法,其特征在于,所述在初始的预训练语言模型中添加所述第二目标适配模块,得到目标文本分类模型,包括:

6.根据权利要求3所述的方法,其特征在于,所述在初始的预训练语言模型中添加所述第二目标适配模块,得到目标文本分类模型,包括:

7.一种文本分类方法,其特征在于,包括:

8.一种文本分类模型的训练装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至6中任一项所述的文本分类模型的训练方法;或者,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求7所述的文本分类方法。

...

【技术特征摘要】

1.一种文本分类模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述初始的预训练语言模型包括多个注意力模块,所述各个文本分类模型是在所述初始的预训练语言模型的每个注意力模块中添加所述适配模块得到。

3.根据权利要求2所述的方法,其特征在于,所述通过各个训练数据集对应的文本分类模型,对各个训练数据集中的样本文本进行分类,得到各个训练数据集中的样本文本的预测类别,包括:

4.根据权利要求3所述的方法,其特征在于,所述对所述多个训练数据集各自对应的第一目标适配模块携带的模型参数进行融合处理,以得到第二目标适配模块,包括:

5.根据权利要求3所述的方法,其特征在于,所述在初始的预训...

【专利技术属性】
技术研发人员:陈文俊蒋宁陆全夏粉肖冰李宽
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1