分类模型训练方法、分类方法、装置以及电子设备制造方法及图纸

技术编号：40371378 阅读：4 留言：0更新日期：2024-02-20 22:14

本申请实施例公开了一种分类模型训练方法、分类方法、装置、电子设备及存储介质。所述方法包括：获取训练数据集；将所述多个文本数据输入到待训练模型中，获取所述待训练模型输出的所述多个文本数据各自对应的多个分类结果，其中，所述待训练模型包括多个分类层，所述多个分类层分别连接在变换器语言模型的预设编码器层之后，所述文本数据对应的多个分类结果分别由所述多个分类层输出；基于所述多个文本数据各自对应的多个分类结果，对所述待训练模型进行迭代训练，直至满足训练结束条件，得到目标分类模型。通过在变换器语言模型的预设编码器层之后添加分类层来实现文本数据的多级分类联合判别，提高了目标分类模型的推理效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于计算机，具体涉及一种分类模型训练方法、分类方法、装置、电子设备及存储介质。

技术介绍

1、随着深度学习的长足进步，越来越多的智能产品被专利技术出来，用来对文本进行分类，当下主流的技术是在原始的bert(bidirectional encoder representationsfromtransformers)模型后再加上一个分类层即可。这里假设如果目前有n个大分类，在每个大分类下面还有m个小分类，这里称为多级分类，也就是粗分类到细分类的过程。如果每个大分类都有一个模型，那么就一共会有n个模型，再加上一个总的大分类，一个n+1个模型，这样会造成内存大，资源浪费的现象。这种时候一般会做一个拉平操作，通过拉平操作将大分类和小分类拉平在一起，可以得到n*m个类别。此时如果对这些类别训练出一个分类模型，就会需要大量的训练数据。在没有足够的训练数据的情况下，就会导致训练得到的分类模型的推理效果还有待提高。

技术实现思路

1、鉴于上述问题，本申请提出了一种分类模型训练方法、分类方法、装置、电子设备以及存储介质，以实现改善上述问题。

2、第一方面，本申请实施例提供了一种分类模型训练方法，所述方法包括：获取训练数据集，其中，所述训练数据集中包括对文本标签进行拉平处理后得到的多个文本数据；将所述多个文本数据输入到待训练模型中，获取所述待训练模型输出的所述多个文本数据各自对应的多个分类结果，其中，所述待训练模型包括多个分类层，所述多个分类层分别连接在变换器语言模型的预设编码器层之后

3、第二方面，本申请实施例提供了一种分类方法，所述方法包括：获取待分类文本数据；将所述待分类文本数据输入到基于权利要求1-7任一所述方法训练得到的目标分类模型中，获取所述目标分类模型输出的所述待分类文本对应的多个分类结果。

4、第三方面，本申请实施例提供了一种分类模型训练装置，所述装置包括：数据获取单元，用于获取训练数据集，其中，所述训练数据集中包括对文本标签进行拉平处理后得到的多个文本数据；结果输出单元，用于将所述多个文本数据输入到待训练模型中，获取所述待训练模型输出的所述多个文本数据各自对应的多个分类结果，其中，所述待训练模型包括多个分类层，所述多个分类层分别连接在变换器语言模型的预设编码器层之后，所述文本数据对应的多个分类结果分别由所述多个分类层输出；训练单元，用于基于所述多个文本数据各自对应的多个分类结果，对所述待训练模型进行迭代训练，直至满足训练结束条件，得到目标分类模型。

5、第四方面，本申请实施例提供了一种分类装置，所述装置包括：数据获取单元，用于获取待分类文本数据；结果获取单元，用于将所述待分类文本数据输入到基于权利要求1-7任一所述方法训练得到的目标分类模型中，获取所述目标分类模型输出的所述待分类文本对应的多个分类结果。

6、第五方面，本申请实施例提供了一种电子设备，包括一个或多个处理器以及存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

7、第六方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行上述的方法。

8、本申请实施例提供了一种分类模型训练方法、分类方法、装置、电子设备及存储介质。首先获取训练数据集，其中，所述训练数据集中包括对文本标签进行拉平处理后得到的多个文本数据，然后将多个文本数据输入到待训练模型中，获取待训练模型输出的多个文本数据各自对应的多个分类结果，其中，所述待训练模型包括多个分类层，所述多个分类层分别连接在变换器语言模型的预设编码器层之后，所述文本数据对应的多个分类结果分别由所述多个分类层输出，最后基于多个文本数据各自对应的多个分类结果，对待训练模型进行迭代训练，直至满足训练结束条件，得到目标分类模型。通过上述方法，通过在变换器语言模型的预设编码器层之后添加分类层来实现文本数据的多级分类联合判别，提高了目标分类模型的推理效果。

本文档来自技高网...

【技术保护点】

1.一种分类模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述多个文本数据输入到待训练模型中，获取所述待训练模型输出的所述多个文本数据各自对应的多个分类结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述待训练模型包括第一分类层和第二分类层，所述第一分类层连接在所述变换器语言模型的第二个编码器层之后，所述第二分类层连接在所述变换器语言模型的最后一个编码器层之后，所述将每一所述文本数据输入到所述待训练模型中，获取连接有分类层的每一个编码器层输出的所述文本数据的特殊分类嵌入，得到每一所述文本数据对应的多个特殊分类嵌入，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述多个文本数据各自对应的多个分类结果，对所述待训练模型进行迭代训练，直至满足训练结束条件，得到目标分类模型，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取训练数据集，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所

8.一种分类方法，其特征在于，所述方法包括：

9.一种分类模型训练装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括一个或多个处理器；一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行权利要求1-8任一所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行权利要求1-8任一所述的方法。

...

【技术特征摘要】

1.一种分类模型训练方法，其特征在于，所述方法包括：

【专利技术属性】
技术研发人员：杨以琳，
申请(专利权)人：OPPO广东移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人