模型训练方法、文本分类方法、系统、设备及存储介质技术方案

技术编号：40180498 阅读：5 留言：0更新日期：2024-01-26 23:46

本申请实施例提供了一种模型训练方法、文本分类方法、系统、设备及存储介质，属于文本处理技术领域。模型训练方法通过获取多领域任务文本数据样本和目标领域文本数据样本，基于多领域任务文本数据样本对教师模型进行训练得到基础文本分类模型，基于目标领域文本数据样本，利用基础文本分类模型对学生模型进行知识蒸馏，以将基础文本分类模型学习到的知识迁移到小样本学习的学生模型中，得到所需领域的初始文本分类模型，提高初始文本分类模型的泛化性，并根据训练过程中初始文本分类模型对于各个文本分类任务的任务损失优化初始文本分类模型，实现模型的任务均衡，避免仅沿部分任务进行参数优化，提高初始文本分类模型在各种任务下的分类准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及文本处理，尤其涉及一种模型训练方法、文本分类方法、系统、设备及存储介质。

技术介绍

1、随着人工智能技术的发展，机器学习尤其是深度学习已在自然语言等领域广泛应用，针对自然语言处理领域中的不同文本分类任务通常使用语言模型来实现。对于bert等预训练语言模型，在各种文本分类任务实现了效果增益，但是网络模型越深，非线性程度也就越大，但对应地会出现训练成本和模型大小的增加。同时在部署时，大模型推理速度较低且需要更好的硬件支持。随着产业应用和部署环境及硬件限制，存在对预训练模型降低尺寸和计算开销的需求。针对这类需求，采用知识蒸馏(kd)技术能够将知识从大型教师模型传播到小型学生模型，在可接受的效果损失的前提下进行预训练模型的压缩，采用小规模的文本分类模型能够提高分类速度，但是在小规模文本分类模型的知识迁移过程中，由于目标域训练样本数量少，导致迁移得到的文本分类模型的泛化性差，影响小规模文本分类模型下在不同文本分类任务下的分类效果，部分文本分类任务的分类结果准确性差。

技术实现思路

1、本申请实施例的主要目的在于提出一种模型训练方法、文本分类方法、系统、设备及存储介质，旨在提高各文本分类任务下的文本分类准确性。

2、为实现上述目的，本申请实施例的一方面提出了一种文本分类模型训练方法，包括以下步骤：

3、获取多领域任务文本数据样本和目标领域文本数据样本；

4、基于所述多领域任务文本数据样本对教师模型进行训练，得到基础文本分类模型；

5、基

6、根据初始文本分类模型对于各个文本分类任务的任务损失修正所述初始文本分类模型，得到目标文本分类模型。

7、在一些实施例中，所述基于所述多领域任务文本数据样本对教师模型进行训练，得到基础文本分类模型包括以下步骤：

8、根据任务类别将所述多领域任务文本数据样本划分为多个类别样本；

9、将每一个类别样本中的一部分数据划分到支持集，将每一个类别样本中的另一部分数据划分到查询集，其中，所述支持集和所述查询集均包括多领域文本数据；

10、根据所述支持集和所述查询集训练和优化所述教师模型，得到基础文本分类模型。

11、在一些实施例中，所述根据所述支持集和所述查询集训练和优化所述教师模型，得到基础文本分类模型包括以下步骤：

12、将查询集中的同一领域文本数据输入预训练的教师模型进行嵌入表示，得到第一特征向量；

13、根据支持集中的同一领域文本数据通过所述教师模型进行对于目标类别的原型表示，得到第二特征向量；

14、根据所述第一特征向量和所述第二特征向量确定查询集的文本数据对于目标类别的原型得分；

15、根据所述原型得分确定教师模型的第一交叉熵损失，并根据所述第一交叉熵损失更新教师模型的参数。

16、在一些实施例中，所述基于所述目标领域文本数据样本，利用所述基础文本分类模型对学生模型进行知识蒸馏，得到初始文本分类模型包括以下步骤：

17、将所述目标领域文本数据样本输入至所述基础文本分类模型，得到所述基础文本分类模型的各个网络层的第一输出结果；

18、将所述目标领域文本数据样本输入至学生模型，得到所述学生模型的各网络层的第二输出结果；

19、根据每个网络层的第一输出结果和第二输出结果，确定每个网络层的蒸馏损失；

20、根据多个网络层的蒸馏损失确定学生模型的蒸馏总损失；

21、根据所述蒸馏总损失对所述学生模型进行训练，得到初始文本分类模型。

22、在一些实施例中，所述根据初始文本分类模型对于各个文本分类任务的任务损失修正所述初始文本分类模型，得到目标文本分类模型包括以下步骤：

23、获取训练过程中的初始文本分类模型对于每个文本分类任务的多个历史损失；

24、计算每个文本分类任务的多个历史损失的平均值得到每个文本分类任务的任务损失；

25、根据多个文本分类任务的任务损失调整初始文本分类模型的损失函数；

26、根据所述损失函数更新所述初始文本分类模型，得到目标文本分类模型。

27、在一些实施例中，所述根据多个文本分类任务的任务损失调整初始文本分类模型的损失函数包括以下步骤：

28、根据多个文本分类任务的任务损失确定每个文本分类任务的整体损失比例；

29、根据整体损失比例大于比例阈值的文本分类任务的任务损失调整初始文本分类模型的损失函数。

30、为实现上述目的，本申请实施例的另一方面提出了一种文本分类方法，包括以下步骤：

31、获取待分类文本；

32、将所述待分类文本输入目标文本分类模型，得到分类结果，其中，所述目标文本分类模型通过前面所述文本分类模型训练方法训练得到。

33、为实现上述目的，本申请实施例的另一方面提出了一种目标文本分类模型训练系统，包括：

34、第一模块，用于获取多领域任务文本数据样本和目标领域文本数据样本；

35、第二模块，用于基于所述多领域任务文本数据样本对教师模型进行训练，得到基础文本分类模型；

36、第三模块，用于基于所述目标领域文本数据样本，利用所述基础文本分类模型对学生模型进行知识蒸馏，得到初始文本分类模型；

37、第四模块，用于根据初始文本分类模型对于各个文本分类任务的任务损失修正所述初始文本分类模型，得到目标文本分类模型。

38、为实现上述目的，本申请实施例的另一方面提出了一种电子设备，所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现前面所述的文本分类模型训练方法或者文本分类方法。

39、为实现上述目的，本申请实施例的另一方面提出了一种存储介质，所述存储介质为计算机可读存储介质，用于计算机可读存储，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前面所述的文本分类模型训练方法或者文本分类方法。

40、本申请提出的模型训练方法、文本分类方法、系统、设备及存储介质，其通过获取多领域任务文本数据样本和目标领域文本数据样本，基于多领域任务文本数据样本对教师模型进行训练得到基础文本分类模型，基于目标领域文本数据样本，利用基础文本分类模型对学生模型进行知识蒸馏，以将基础文本分类模型学习到的知识迁移到小样本学习的学生模型中，得到所需领域的初始文本分类模型，提高初始文本分类模型的泛化性，并根据训练过程中初始文本分类模型对于各个文本分类任务的任务损失优化初始文本分类模型，实现模型的任务均衡，避免仅沿部分任务进行参数优化，利用本申请的目标文本分类模型进行文本分类，不仅能够提高本文档来自技高网...

【技术保护点】

1.一种文本分类模型训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的文本分类模型训练方法，其特征在于，所述基于所述多领域任务文本数据样本对教师模型进行训练，得到基础文本分类模型包括以下步骤：

3.根据权利要求2所述的文本分类模型训练方法，其特征在于，所述根据所述支持集和所述查询集训练和优化所述教师模型，得到基础文本分类模型包括以下步骤：

4.根据权利要求1所述的文本分类模型训练方法，其特征在于，所述基于所述目标领域文本数据样本，利用所述基础文本分类模型对学生模型进行知识蒸馏，得到初始文本分类模型包括以下步骤：

5.根据权利要求4所述的文本分类模型训练方法，其特征在于，所述根据初始文本分类模型对于各个文本分类任务的任务损失修正所述初始文本分类模型，得到目标文本分类模型包括以下步骤：

6.根据权利要求5所述的文本分类模型训练方法，其特征在于，所述根据多个文本分类任务的任务损失调整初始文本分类模型的损失函数包括以下步骤：

7.一种文本分类方法，其特征在于，包括以下步骤：

8.一种目标文本分

9.一种电子设备，其特征在于，所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现如权利要求1至6任一项所述的文本分类模型训练方法或者如权利要求7所述的文本分类方法的步骤。

10.一种存储介质，所述存储介质为计算机可读存储介质，用于计算机可读存储，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1至6任一项所述的文本分类模型训练方法或者如权利要求7所述的文本分类方法的步骤。

...

【技术特征摘要】

1.一种文本分类模型训练方法，其特征在于，包括以下步骤：

6.根据权利要求5所述的文本分类模型训练...

【专利技术属性】
技术研发人员：黄晓萌，方瑞玉，蒲璐汶，王士权，黄钰瑶，车仲浩，
申请(专利权)人：中国电信股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人