图像分类模型的训练方法及装置制造方法及图纸

技术编号:37858960 阅读:10 留言:0更新日期:2023-06-15 20:49
本申请提供了一种图像分类模型的训练方法及装置、电子设备、计算机可读存储介质,该方法包括:获取样本图像的样本实例信息,其中,样本实例信息包括组成样本图像的多个元素以及多个元素的特征信息;根据样本实例信息和预设的多个图像类别,得到样本图像的文本特征信息,文本特征信息包括多个类别特征信息,每个类别特征信息对应一个图像类别;获取样本图像的图像特征信息,并根据图像特征信息和文本特征信息对初始图像分类模型进行基于提示学习的训练,获得目标图像分类模型。根据本申请的实施例能够提升得到的目标图像分类模型的分类性能和泛化能力。类性能和泛化能力。类性能和泛化能力。

【技术实现步骤摘要】
图像分类模型的训练方法及装置


[0001]本申请涉及图像处理领域,特别涉及一种图像分类模型的训练方法、图像分类方法及装置、电子设备、计算机可读存储介质。

技术介绍

[0002]图像分类是计算机视觉领域常见的任务之一,其通常是通过人工标注的固定类别的样本图像对模型进行监督训练,以训练得到可以将图像划分到对应类别中的图像分类模型。
[0003]在常规的图像分类模型的训练过程中,一般需要花费大量人工对样本图像进行标注,以训练得到较高分类性能的图像分类模型,因此,如何只利用少数标注样本或者零样本来训练得到具备较高分类性能的图像分类模型是目前研究的重点。随着技术的不断发展,通过基于提示学习(Prompt Learning)训练图像分类模型被人们广泛关注,该种模型训练方法往往是在模型训练过程中加入图像类别相关的提示模版,以对模型分类提供提示,从而使模型可以在较小样本训练的情况下具备较高的分类性能。然而,相较于常规的模型训练方法,相关技术中的基于提示学习的图像分类模型训练方法虽然可以减少模型训练过程中的样本使用量,从而缩减人工标注成本,但其可能存在分类性能差以及泛化能力差的问题。

技术实现思路

[0004]本申请提供一种图像分类模型的训练方法、图像分类方法及装置、电子设备、计算机可读存储介质,可以提升图像分类模型的分类性能和泛化能力,以高效且准确地对图像进行分类。
[0005]第一方面,本申请提供了一种图像分类模型的训练方法,该图像分类模型的训练方法包括:
[0006]获取样本图像的样本实例信息,其中,所述样本实例信息包括组成所述样本图像的多个元素以及所述多个元素的特征信息;
[0007]根据所述样本实例信息和预设的多个图像类别,得到所述样本图像的文本特征信息,所述文本特征信息包括多个类别特征信息,每个类别特征信息对应一个图像类别;
[0008]获取所述样本图像的图像特征信息,并根据所述图像特征信息和所述文本特征信息对初始图像分类模型进行基于提示学习的训练,获得目标图像分类模型,所述目标图像分类模型用于对图像进行分类。
[0009]第二方面,本申请提供了一种图像分类方法,该图像分类方法包括:
[0010]获取待分类的目标图像的目标实例信息;
[0011]将所述目标图像、所述目标实例信息和预设的多个图像类别输入至目标图像分类模型中进行图像分类处理,得到所述目标图像所属的目标图像类别;其中,所述目标图像分类模型是根据上述第一方面的图像分类模型的训练方法得到的,所述目标图像类别为所述
多个图像类别中的任一图像类别。
[0012]第三方面,本申请提供了一种图像分类模型的训练装置,该图像分类模型的训练装置包括:
[0013]样本实例获取单元,用于获取样本图像的样本实例信息,其中,所述样本实例信息包括组成所述样本图像的多个元素以及所述多个元素的特征信息;
[0014]文本特征获取单元,用于根据所述样本实例信息和预设的多个图像类别,得到所述样本图像的文本特征信息,所述文本特征信息包括多个类别特征信息,每个类别特征信息对应一个图像类别;
[0015]训练单元,用于获取所述样本图像的图像特征信息,并根据所述图像特征信息和所述文本特征信息对初始图像分类模型进行基于提示学习的训练,获得目标图像分类模型,所述目标图像分类模型用于对图像进行分类。
[0016]第四方面,本申请提供了一种图像分类装置,该图像分类装置包括:
[0017]获取单元,用于获取待分类的目标图像的目标实例信息;
[0018]分类单元,用于将所述目标图像、所述目标实例信息和预设的多个图像类别输入至目标图像分类模型中进行图像分类处理,得到所述目标图像所属的目标图像类别;其中,所述目标图像分类模型是根据上述第一方面的图像分类模型的训练方法得到的,所述目标图像类别为所述多个图像类别中的任一图像类别。
[0019]第五方面,本申请提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面的图像分类模型的训练方法或者第二方面的图像分类方法。
[0020]第六方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器执行时实现上述第一方面的图像分类模型的训练方法或者第二方面的图像分类方法。
[0021]相较于相关技术中仅基于与图像类别相关的提示信息进行模型训练时,由于模型学习到的信息较为单一而导致得到的图像分类模型可能存在分类性能差以及泛化能力差的问题,本申请所提供的实施例,在模型训练过程中,通过获取样本图像的样本实例信息,并根据样本实例信息和预设的多个图像类别,得到样本图像的文本特征信息;之后,通过获取样本图像的图像特征信息,并根据该图像特征信息和文本特征信息对初始图像分类模型进行基于提示学习的训练,使得模型在训练过程中不仅仅能够学习到图像类别相关的提示信息,还能够学习到实例,即,组成样本图像的多个元素以及各元素的特征信息中的提示信息,以提升其学习到的信息的丰富性,并且由于图像的实例信息相较于图像类别能够从细粒度层面表征图像的图像类别,因此,可以进一步的提升训练得到的目标图像分类模型的分类性能和泛化能力。
[0022]应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0023]附图用来提供对本申请的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请,并不构成对本申请的限制。通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,在附图中:
[0024]图1为本申请实施例提供的一种图像分类模型的训练方法的流程图;
[0025]图2为本申请实施例提供的用于获取文本特征信息的流程图;
[0026]图3为本申请实施例提供的用于训练目标图像分类模型的框架示意图;
[0027]图4为本申请实施例提供的用于训练目标图像分类模型的流程图;
[0028]图5为本申请实施例提供的用于获取预测类别的流程图;
[0029]图6为本申请实施例提供的图像分类方法的流程图;
[0030]图7为本申请实施例提供的应用场景的示意图;
[0031]图8为本申请实施例提供的图像分类模型的训练装置的框图;
[0032]图9为本申请实施例提供的图像分类装置的框图;
[0033]图10为本申请实施例提供的一种电子设备的框图。
具体实施方式
[0034]为使本领域的技术人员更好地理解本申请的技术方案,以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像分类模型的训练方法,其特征在于,包括:获取样本图像的样本实例信息,其中,所述样本实例信息包括组成所述样本图像的多个元素以及所述多个元素的特征信息;根据所述样本实例信息和预设的多个图像类别,得到所述样本图像的文本特征信息,所述文本特征信息包括多个类别特征信息,每个类别特征信息对应一个图像类别;获取所述样本图像的图像特征信息,并根据所述图像特征信息和所述文本特征信息对初始图像分类模型进行基于提示学习的训练,获得目标图像分类模型,所述目标图像分类模型用于对图像进行分类。2.根据权利要求1所述的方法,其特征在于,所述初始图像分类模型中包括初始提示学习向量和初始文本编码子模型;其中,所述初始提示学习向量是用于向所述初始图像分类模型提供与图像类别相关的提示信息的模板;所述根据所述样本实例信息和预设的多个图像类别,得到所述样本图像的文本特征信息,包括:将所述样本实例信息、所述初始提示学习向量分别和所述多个图像类别进行合并,得到多个样本提示学习融合向量,其中,所述样本提示学习融合向量用于同时向所述初始图像分类模型提供与图像类别相关的提示信息和实例相关的提示信息;将所述多个样本提示学习融合向量输入至所述初始文本编码子模型中进行文本编码处理,将得到的所述多个类别特征信息作为所述文本特征信息。3.根据权利要求2所述的方法,其特征在于,所述将所述样本实例信息、所述初始提示学习向量分别和所述多个图像类别进行合并,得到多个样本提示学习融合向量,包括:对所述样本实例信息进行编码处理,得到第一文本向量;对所述多个图像类别进行编码处理,得到多个第二文本向量;将所述第一文本向量、所述初始提示学习向量分别和所述多个第二文本向量进行向量拼接处理,得到所述多个样本提示学习融合向量。4.根据权利要求2所述的方法,其特征在于,所述初始图像分类模型中还包括初始图像编码子模型;所述获取所述样本图像的图像特征信息,并根据所述图像特征信息和所述文本特征信息对初始图像分类模型进行基于提示学习的训练,获得目标图像分类模型,包括:将所述样本图像输入至所述初始图像编码子模型中进行图像编码处理,得到图像特征信息;以所述文本特征信息中的多个类别特征信息分别作为提示信息,确定所述文本特征信息中每一类别特征信息所对应的图像类别、所述样本图像中各元素以及各元素的特征信息和所述图像特征信息之间的相关性,得到所述样本图像的预测类别;根据所述预测类别和所述样本图像对应的标签之间的损失值,调整所述初始提示学习向量、所述初始文本编码子模型和所述初始图像编码子模型的参数,得到所述目标图像分类模型;其中,所述标签用于表示所述样本图像真实所属的图像类别。5.根据权利要求4所述的方法,其特征在于,所述确定所述文本特征信息中每一类别特征信息所对应的图像类别...

【专利技术属性】
技术研发人员:陈文俊蒋宁夏粉肖冰李宽
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1