开集分类模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号：40494647 阅读：13 留言：0更新日期：2024-02-26 19:23

本公开提供了一种开集分类模型的训练方法、装置、电子设备及存储介质，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型等技术领域。具体实现方案包括：基于预先训练的通用领域的开集分类模型，配置携带第一优化提示参数的第二文本编码层；基于预先训练的通用领域的开集分类模型，配置携带第二优化提示参数的第二图像编码层；采用特定领域的下游任务数据，对第二文本编码层和所述第二图像编码层进行训练，以得到包括第二文本编码层和第二图像编码层的特定领域的开集分类模型。本公开的技术，可以准确、快速、高效地训练得到特定领域的开集分类模型，进而能够有效地提高在特定领域如细分类领域中，开集分类的准确性以及分类效果。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，尤其涉及计算机视觉、深度学习、大模型等。具体涉及一种开集分类模型的训练方法、装置、电子设备及存储介质。

技术介绍

1、基于数据驱动的深度学习逐渐趋于往大数据和大模型方向发展。例如，基于文本模态和图像模态的多模态数据的预训练的方法，能够实现将图像的描述文本特征和图像特征对齐，进而使得开放类别的分类方法得以实现。

2、基于上述技术，能够实现开集分类器或者开集分类模型的训练，进而可以使用训练好的开集分类器或者开集分类模型，对图像进行开放类别的分类。

技术实现思路

1、本公开提供了一种开集分类模型的训练方法、装置、电子设备及存储介质。

2、根据本公开的一方面，提供了一种开集分类模型的训练方法，包括：

3、基于预先训练的通用领域的开集分类模型，配置携带第一优化提示参数的第二文本编码层；所述通用领域的开集分类模型包括第一文本编码层和第一图像编码层，预先经过包括图像模态和文本模态的训练数据训练得到；

4、基于预先训练的通用领域的开集分类模型，配置携带第二优化提示参数的第二图像编码层；

5、采用特定领域的下游任务数据，对所述第二文本编码层和所述第二图像编码层进行训练，以得到包括所述第二文本编码层和所述第二图像编码层的特定领域的开集分类模型。

6、根据本公开的另一方面，提供了一种应用上述所述的方法训练得到的特定领域的开集分类模型进行图像分类的方法，包括：

7、基于特定领域的开集分类模型中的第二文本

8、基于所述特定领域的开集分类模型中的第二图像编码层和待分类的图像，获取待分类的图像的优化图像特征；

9、基于各类别的第二文本特征和待分类的图像的优化图像特征，对所述待分类的图像进行分类。

10、根据本公开的再一方面，提供了一种开集分类模型的训练装置，包括：

11、第一配置模块，用于基于预先训练的通用领域的开集分类模型，配置携带第一优化提示参数的第二文本编码层；所述通用领域的开集分类模型包括第一文本编码层和第一图像编码层，预先经过包括图像模态和文本模态的训练数据训练得到；

12、第二配置模块，用于基于预先训练的通用领域的开集分类模型，配置携带第二优化提示参数的第二图像编码层；

13、训练模块，用于采用特定领域的下游任务数据，对所述第二文本编码层和所述第二图像编码层进行训练，以得到包括所述第二文本编码层和所述第二图像编码层的特定领域的开集分类模型。

14、根据本公开的又一方面，提供了一种采用如上所述的装置训练得到的特定领域的开集分类模型进行图像分类的装置，包括：

15、文本特征获取模块，用于基于特定领域的开集分类模型中的第二文本编码层和各类别的文本描述，分别获取各类别的第二文本特征；

16、图像特征获取模块，用于基于所述特定领域的开集分类模型中的第二图像编码层和待分类的图像，获取待分类的图像的优化图像特征；

17、分类模块，用于基于各类别的第二文本特征和待分类的图像的优化图像特征，对所述待分类的图像进行分类。

18、根据本公开的再另一方面，提供了一种电子设备，包括：

19、至少一个处理器；以及

20、与所述至少一个处理器通信连接的存储器；其中，

21、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。

22、根据本公开的再又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。

23、根据本公开的又另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。

24、根据本公开的技术，可以准确、快速、高效地训练得到特定领域的开集分类模型，进而能够有效地提高在特定领域如细分类领域中，开集分类的准确性以及分类效果。

25、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种开集分类模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，基于预先训练的通用领域的开集分类模型，配置携带第一优化提示参数的第二文本编码层，包括：

3.根据权利要求1所述的方法，其中，基于预先训练的通用领域的开集分类模型，配置携带第二优化提示参数的第二图像编码层，包括：

4.根据权利要求1所述的方法，其中，采用特定领域的下游任务数据，对所述第二文本编码层和所述第二图像编码层进行训练，包括：

5.根据权利要求4所述的方法，其中，基于各训练类别对应的所述第一文本特征、各训练类别对应的所述第二文本特征、所述通用图像特征、所述优化图像特征以及所述训练图像的分类标签，并参考类间关系对齐的约束，构建综合损失函数，包括：

6.根据权利要求5所述的方法，其中，基于各训练类别对应的所述第一文本特征、各训练类别对应的所述第二文本特征、所述通用图像特征、所述优化图像特征以及所述训练图像的分类标签，在类间关系对齐的约束下，构建类间关系对齐损失函数，包括：

7.根据权利要求6所述的方法，其中，一轮训练中采用一组特定领域

8.一种采用权利要求1-7任一所述的方法训练得到的特定领域的开集分类模型进行图像分类的方法，包括：

9.根据权利要求8所述的方法，其中，基于各类别的第二文本特征和待分类的图像的优化图像特征，对所述待分类的图像进行分类，包括：

10.一种开集分类模型的训练装置，包括：

11.根据权利要求10所述的装置，其中，所述第一配置模块，用于：

12.根据权利要求10所述的装置，其中，所述第二配置模块，用于：

13.根据权利要求10所述的装置，其中，所述训练模块，包括：

14.根据权利要求13所述的装置，其中，所述损失函数构建单元，用于：

15.根据权利要求14所述的装置，其中，所述损失函数构建单元，用于：

16.根据权利要求15所述的装置，其中，一轮训练中采用一组特定领域的下游任务数据组，所述特定领域的下游任务数据组中包括至少两条特定领域的下游任务数据；各条所述下游任务数据中包括一张训练图像和对应的分类标签；所述损失函数构建单元，用于：

17.一种采用权利要求10-16任一所述的装置训练得到的特定领域的开集分类模型进行图像分类的装置，包括：

18.根据权利要求17所述的装置，其中，所述分类模块，用于：

19.一种电子设备，包括：

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。

...

【技术特征摘要】

1.一种开集分类模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，基于预先训练的通用领域的开集分类模型，配置携带第一优化提示参数的第二文本编码层，包括：

3.根据权利要求1所述的方法，其中，基于预先训练的通用领域的开集分类模型，配置携带第二优化提示参数的第二图像编码层，包括：

4.根据权利要求1所述的方法，其中，采用特定领域的下游任务数据，对所述第二文本编码层和所述第二图像编码层进行训练，包括：

7.根据权利要求6所述的方法，其中，一轮训练中采用一组特定领域的下游任务数据组，所述特定领域的下游任务数据组中包括至少两条特定领域的下游任务数据；各条所述下游任务数据中包括一张训练图像和对应的分类标签；基于所述通用图像特征、所述优化图像特征以及所述训练图像的分类标签，构建第二绝对值误差损失函数，包括：

8.一种采用权利要求1-7任一所述的方法训练得到的特定领域的开集分类模型进行图像分类的方法，包括...

【专利技术属性】
技术研发人员：张国生，岳海潇，王珂尧，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人