图像分类模型的训练方法及装置制造方法及图纸

技术编号：37858960 阅读：10 留言：0更新日期：2023-06-15 20:49

本申请提供了一种图像分类模型的训练方法及装置、电子设备、计算机可读存储介质，该方法包括：获取样本图像的样本实例信息，其中，样本实例信息包括组成样本图像的多个元素以及多个元素的特征信息；根据样本实例信息和预设的多个图像类别，得到样本图像的文本特征信息，文本特征信息包括多个类别特征信息，每个类别特征信息对应一个图像类别；获取样本图像的图像特征信息，并根据图像特征信息和文本特征信息对初始图像分类模型进行基于提示学习的训练，获得目标图像分类模型。根据本申请的实施例能够提升得到的目标图像分类模型的分类性能和泛化能力。类性能和泛化能力。类性能和泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】
图像分类模型的训练方法及装置

[0001]本申请涉及图像处理领域，特别涉及一种图像分类模型的训练方法、图像分类方法及装置、电子设备、计算机可读存储介质。

技术介绍

[0002]图像分类是计算机视觉领域常见的任务之一，其通常是通过人工标注的固定类别的样本图像对模型进行监督训练，以训练得到可以将图像划分到对应类别中的图像分类模型。
[0003]在常规的图像分类模型的训练过程中，一般需要花费大量人工对样本图像进行标注，以训练得到较高分类性能的图像分类模型，因此，如何只利用少数标注样本或者零样本来训练得到具备较高分类性能的图像分类模型是目前研究的重点。随着技术的不断发展，通过基于提示学习(Prompt Learning)训练图像分类模型被人们广泛关注，该种模型训练方法往往是在模型训练过程中加入图像类别相关的提示模版，以对模型分类提供提示，从而使模型可以在较小样本训练的情况下具备较高的分类性能。然而，相较于常规的模型训练方法，相关技术中的基于提示学习的图像分类模型训练方法虽然可以减少模型训练过程中的样本使用量，从而缩减人工标注成本，但其可能存在分类性能差以及泛化能力差的问题。

技术实现思路

[0004]本申请提供一种图像分类模型的训练方法、图像分类方法及装置、电子设备、计算机可读存储介质，可以提升图像分类模型的分类性能和泛化能力，以高效且准确地对图像进行分类。
[0005]第一方面，本申请提供了一种图像分类模型的训练方法，该图像分类模型的训练方法包括：
[0006]获取样本图像的样本实例...

【技术保护点】

【技术特征摘要】
1.一种图像分类模型的训练方法，其特征在于，包括：获取样本图像的样本实例信息，其中，所述样本实例信息包括组成所述样本图像的多个元素以及所述多个元素的特征信息；根据所述样本实例信息和预设的多个图像类别，得到所述样本图像的文本特征信息，所述文本特征信息包括多个类别特征信息，每个类别特征信息对应一个图像类别；获取所述样本图像的图像特征信息，并根据所述图像特征信息和所述文本特征信息对初始图像分类模型进行基于提示学习的训练，获得目标图像分类模型，所述目标图像分类模型用于对图像进行分类。2.根据权利要求1所述的方法，其特征在于，所述初始图像分类模型中包括初始提示学习向量和初始文本编码子模型；其中，所述初始提示学习向量是用于向所述初始图像分类模型提供与图像类别相关的提示信息的模板；所述根据所述样本实例信息和预设的多个图像类别，得到所述样本图像的文本特征信息，包括：将所述样本实例信息、所述初始提示学习向量分别和所述多个图像类别进行合并，得到多个样本提示学习融合向量，其中，所述样本提示学习融合向量用于同时向所述初始图像分类模型提供与图像类别相关的提示信息和实例相关的提示信息；将所述多个样本提示学习融合向量输入至所述初始文本编码子模型中进行文本编码处理，将得到的所述多个类别特征信息作为所述文本特征信息。3.根据权利要求2所述的方法，其特征在于，所述将所述样本实例信息、所述初始提示学习向量分别和所述多个图像类别进行合并，得到多个样本提示学习融合向量，包括：对所述样本实例信息进行编码处理，得到第一文本向量；对所述多个图像类别进行编码处理，得到多个第二文本向量；将所述第一文本向量、所述初始提示学习向量分别和所述多个第二文本向量进行向量拼接处理，得到所述多个样本提示学习融合向量。4.根据权利要求2所述的方法，其特征在于，所述初始图像分类模型中还包括初始图像编码子模型；所述获取所述样本图像的图像特征信息，并根据所述图像特征信息和所述文本特征信息对初始图像分类模型进行基于提示学习的训练，获得目标图像分类模型，包括：将所述样本图像输入至所述初始图像编码子模型中进行图像编码处理，得到图像特征信息；以所述文本特征信息中的多个类别特征信息分别作为提示信息，确定所述文本特征信息中每一类别特征信息所对应的图像类别、所述样本图像中各元素以及各元素的特征信息和所述图像特征信息之间的相关性，得到所述样本图像的预测类别；根据所述预测类别和所述样本图像对应的标签之间的损失值，调整所述初始提示学习向量、所述初始文本编码子模型和所述初始图像编码子模型的参数，得到所述目标图像分类模型；其中，所述标签用于表示所述样本图像真实所属的图像类别。5.根据权利要求4所述的方法，其特征在于，所述确定所述文本特征信息中每一类别特征信息所对应的图像类别...

【专利技术属性】
技术研发人员：陈文俊，蒋宁，夏粉，肖冰，李宽，
申请(专利权)人：马上消费金融股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人