一种图像分类模型的训练方法及装置制造方法及图纸

技术编号:37715590 阅读:11 留言:0更新日期:2023-06-02 00:11
本公开涉及人工智能技术领域,提供了一种图像分类模型的训练方法、装置、计算机设备及计算机可读存储介质。该方法在模型训练过程中仅对第一特征提示词向量和分类器的参数进行调整,这样不需要让图像分类模型中的主干网络适应新的训练样本,而通过在训练样本中增加可学习的第一特征提示词向量,让增加预设的第一特征提示词向量的训练样本适应主干网络,由于可学习的第一特征提示词向量能够适应预训练模型的内部参数,能够让预训练模型根据添加的可学习的第一特征提示词向量理解任务,在一定程度上调整训练样本数据的分布,从而适应图像分类模型,实现图像分类模型的预测结果的精度提升,同时实施成本相对较低且计算复杂度低、数据计算量低。数据计算量低。数据计算量低。

【技术实现步骤摘要】
一种图像分类模型的训练方法及装置


[0001]本公开涉及人工智能
,尤其涉及一种图像分类模型的训练方法及装置。

技术介绍

[0002]一直以来,自然语言任务非常依赖预训练模型。Transformer模型在NLP领域获得了巨大的成功,以此为基本训练方法获得的超大规模预训练模型BERT、GPT

3在NLP各个任务中都大放异彩,达到最佳精度。受到NLP中Transformer的启发,计算机视觉分析任务也尝试借鉴了Transformer模型的思想和方法,对大量已有数据进行预训练。
[0003]当前在下游任务上应用预训练模型的主要策略是,对预训练好的模型使用较小的学习率(learning rate),对全部参数进行精调。但是,对一些很大的模型来说,全量精调是不现实的,至少全量精调预训练的主干网络(backbone)运算开销很大,而且有时候会因为迁移数据集数据量不够,导致效果提升有限。所以,对于很大的模型来说,如果也想使用预训练模型迁移策略,且希望既能够降低精精调的运算开销,又能获得很好的模型精度,甚至想达到更高的模型精度,就需要有新的模型训练策略。

技术实现思路

[0004]有鉴于此,本公开实施例提供了一种图像分类模型的训练方法、装置、计算机设备及计算机可读存储介质,以实现既能够降低模型训练的运算开销,又能获得较好的模型精度。
[0005]本公开实施例的第一方面,提供了一种图像分类模型的训练方法,所述方法包括:
[0006]获取训练样本图像和所述训练样本图像对应的的真实类别标签;
[0007]根据所述训练样本图像,确定所述训练样本图像对应的图片块序列;
[0008]根据所述训练样本图像对应的图片块序列、预设的第一特征提示词向量和分类标识,得到第一调整图片块序列;
[0009]将所述第一调整图片块序列输入图像分类模型,得到所述训练样本图像对应的预测类别标签;其中,所述图像分类模型包括主干网络和分类器;
[0010]根据所述训练样本图像对应的预测类别标签和真实类别标签,对所述第一特征提示词向量和所述分类器的参数进行调整,且固定所述主干网络的参数,得到已训练的图像分类模型。
[0011]本公开实施例的第二方面,提供了一种图像分类模型的训练装置,所述装置包括:
[0012]数据获取单元,用于获取训练样本图像和所述训练样本图像对应的的真实类别标签;
[0013]序列确定单元,用于根据所述训练样本图像,确定所述训练样本图像对应的图片块序列;
[0014]序列调整单元,用于根据所述训练样本图像对应的图片块序列、预设的第一特征提示词向量和分类标识,得到第一调整图片块序列;
[0015]类别预测单元,用于将所述第一调整图片块序列输入图像分类模型,得到所述训练样本图像对应的预测类别标签;其中,所述图像分类模型包括主干网络和分类器;
[0016]参数调整单元,用于根据所述训练样本图像对应的预测类别标签和真实类别标签,对所述第一特征提示词向量和所述分类器的参数进行调整,且固定所述主干网络的参数,得到已训练的图像分类模型。
[0017]本公开实施例的第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并且可以在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
[0018]本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
[0019]本公开实施例与现有技术相比存在的有益效果是:本公开实施例可以先获取训练样本图像和所述训练样本图像对应的的真实类别标签;然后,可以根据所述训练样本图像,确定所述训练样本图像对应的图片块序列;接着,可以根据所述训练样本图像对应的图片块序列、预设的第一特征提示词向量和分类标识,得到第一调整图片块序列;紧接着,可以将所述第一调整图片块序列输入图像分类模型,得到所述训练样本图像对应的预测类别标签;其中,所述图像分类模型包括主干网络和分类器;最后,可以根据所述训练样本图像对应的预测类别标签和真实类别标签,对所述第一特征提示词向量和所述分类器的参数进行调整,且固定所述主干网络的参数,得到已训练的图像分类模型。本实施例中,由于在模型训练过程中不对图像分类模型中的主干网络的参数进行调整,而仅对第一特征提示词向量和分类器的参数进行调整,这样,不需要让图像分类模型中的主干网络适应新的训练样本,即直接冻结主干网络的内部参数,而通过在训练样本中增加可学习的第一特征提示词向量,让增加预设的第一特征提示词向量的训练样本适应主干网络,由于可学习的第一特征提示词向量能够适应预训练模型(即图像分类模型)的内部参数,能够让预训练模型根据添加的可学习的第一特征提示词向量理解任务,在一定程度上调整训练样本数据的分布,从而适应图像分类模型,实现图像分类模型的预测结果的精度提升,同时,这种训练方法不需要额外的资源和设计,实施成本相对较低,且计算复杂度低、数据计算量低,可以使得模型训练成为低资源消耗的精调训练。也就是说,本实施例提供的方法既能够降低模型训练的运算开销,又能获得较好的模型精度。
附图说明
[0020]为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0021]图1是本公开实施例的应用场景的场景示意图;
[0022]图2是本公开实施例提供的图像分类模型的训练方法的流程图;
[0023]图3是本公开实施例提供的图像分类模型的网络架构示意图;
[0024]图4是本公开实施例提供的图像分类模型的训练装置的框图;
[0025]图5是本公开实施例提供的计算机设备的示意图。
具体实施方式
[0026]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
[0027]下面将结合附图详细说明根据本公开实施例的一种图像分类模型的训练方法和装置。
[0028]专利技术人经研究,自然语言任务非常依赖预训练模型。Transformer模型在NLP领域获得了巨大的成功,以此为基本训练方法获得的超大规模预训练模型BERT、GPT

3在NLP各个任务中都大放异彩,达到最佳精度。受到NLP中Transformer的启发,计算机视觉分析任务也尝试借鉴了Transformer模型的思想和方法,对大量已有数据进行预训练。
[0029]当前在下游任务上应用预训练模型的主要策略是,对预训练好的模型使用较本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像分类模型的训练方法,其特征在于,所述方法包括:获取训练样本图像和所述训练样本图像对应的的真实类别标签;根据所述训练样本图像,确定所述训练样本图像对应的图片块序列;根据所述训练样本图像对应的图片块序列、预设的第一特征提示词向量和分类标识,得到第一调整图片块序列;将所述第一调整图片块序列输入图像分类模型,得到所述训练样本图像对应的预测类别标签;其中,所述图像分类模型包括主干网络和分类器;根据所述训练样本图像对应的预测类别标签和真实类别标签,对所述第一特征提示词向量和所述分类器的参数进行调整,且固定所述主干网络的参数,得到已训练的图像分类模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述训练样本图像,确定所述训练样本图像对应的图片块序列,包括:将所述训练样本图像划分为若干图片块;根据所述若干图像块,确定所述训练样本图像对应的图片块序列。3.根据权利要求1所述的方法,其特征在于,所述根据所述训练样本图像对应的图片块序列、预设的第一特征提示词向量和分类标识,得到第一调整图片块序列,包括:将所述分类标识、所述第一特征提示词向量和所述训练样本图像对应的图片块序列进行相加,得到第一调整图片块序列。4.根据权利要求3所述的方法,其特征在于,所述分类标识位于所述第一调整图片块序列中的首位,所述第一特征提示词向量位于所述第一调整图片块序列中所述分类标识的位置之后且所述训练样本图像对应的图片块序列的位置之前。5.根据权利要求1所述的方法,其特征在于,所述主干网络包括第一神经网络编码器层和第二神经网络编码器层;其中,所述主干网络为Vision Transformer模型;所述第一神经网络编码器层为基于自注意力的多头注意力网络,所述第二神经网络编码器层为基于自注意力的多头注意力网络,所述第一神经网络编码器层和所述第二神经网络编码器层的网络结构是相同的。6.根据权利要求5所述的方法,其特征在于,所述将所述第一调整图片块序列输入图像分类模型,得到所述训练样本图像对应的预测类别标签,包括:将所述第一调整图片块序列输入所述第一神经网络编码器层,得到所述第一调整图片块序列对应的局部特征序列;其中,所述局部特征序列包括所述分类标识对应的局部特征、所述第一特征提示词向量对应的局部特征和所述训练样本图像对应的图片块序列的局部特征序列;将...

【专利技术属性】
技术研发人员:王芳暴宇健
申请(专利权)人:北京龙智数科科技服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1