System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 图像分类模型的训练方法、图像分类方法、模型、计算机设备及介质技术_技高网
当前位置: 首页 > 专利查询>复旦大学专利>正文

图像分类模型的训练方法、图像分类方法、模型、计算机设备及介质技术

技术编号:40422269 阅读:8 留言:0更新日期:2024-02-20 22:41
本申请提供了一种图像分类模型的训练方法、图像分类方法、模型、计算机设备及介质,包括获取包括图像三元组的训练样本,所述图像三元组包括查询图像、与所述查询图像属于相同类别的正图像和与所述查询图像属于不同类别的负图像;提取所述查询图像、所述正图像、所述负图像的向量特征;利用多头交叉注意力层对所述查询图像、所述正图像、所述负图像的向量特征交叉注意处理;利用多头自注意力层增强所述交叉注意力层的输出的表征;基于所述自注意力层的输出计算损失;以及基于所述损失训练所述图像分类模型。

【技术实现步骤摘要】

本专利技术涉及图像处理领域,特别涉及一种图像分类模型的训练方法、图像分类方法、模型、计算机设备及介质


技术介绍

1、在计算机视觉领域中,在训练样本数据数量较少的情况下采用监督学习的方法训练模型,容易出现过拟合。小样本学习在构建模型可以使用受限制的训练样本,并且在未见过的测试类别中泛化表现良好。

2、在相关技术中,采用了多种手段来模拟人类快速学习新的视觉概念。例如,采用元学习框架来执行小样本视觉任务。或者基于度量的方法来度量支持和查询样本之间的相似性等。然而,这些方法在使用极少的样本来模拟区分类似的视觉概念时仍旧容易出错。


技术实现思路

1、本申请提供了一种图像分类模型的训练方法、图像分类方法、模型、计算机设备及介质,可以提高小样本学习的判别能力。

2、本申请的第一方面公开了一种图像分类模型的训练方法,应用于客户端,所述方法包括,获取包括图像三元组的训练样本,所述图像三元组包括查询图像、与所述查询图像属于相同类别的正图像和与所述查询图像属于不同类别的负图像;提取所述查询图像、所述正图像、所述负图像的向量特征;利用多头交叉注意力层对所述查询图像、所述正图像、所述负图像的向量特征交叉注意处理;利用多头自注意力层增强所述交叉注意力层的输出的表征;基于所述自注意力层的输出计算损失;以及基于所述损失训练所述图像分类模型。

3、在上述第一方面的一种可能的实现中,所述交叉注意处理包括对所述向量特征的三个分支分别进行四次交叉注意力操作。

4、在上述第一方面的一种可能的实现中,所述交叉注意力层包括第一门控单元和第二门控单元,其中所述第一门控单元被配置为调节所述正图像的注意力矩阵以及所述查询图像的重构特征,所述第二门控单元被配置为调节所述负图像的注意力矩阵以及所述查询图像的重构特征。

5、在上述第一方面的一种可能的实现中,所述自注意力层包括第三门控单元和第四门控单元,其中所述第三门控单元被配置为计算所述正图像、所述查询图像和所述负图像之间的相似度,所述第四门控单元被配置为计算所述负图像、所述查询图像和所述正图像之间的相似度。

6、在上述第一方面的一种可能的实现中,所述训练样本还包括第二图像三元组,其包括第二查询图像,与所述第二查询图像属于不同类别的第二负图像以及与所述第二查询图像属于不同类别的第三负图像,并且所述第二图像三元组在所述训练样本中是按照预定的比例设置的。

7、在上述第一方面的一种可能的实现中,所述预定的比例为0.2。

8、本申请的第二方面公开了一种图像分类方法,应用于客户端,包括,获取测试图像、第一支持图像和第二支持图像,其中所述第一支持图像和所述第二支持图像属于不同的类别;将所述测试图像、所述第一支持图像和所述第二支持图像输入至训练好的图像分类模型,其中所述训练好的图像分类模型是根据本申请的第一方面训练得出;以及输出所述测试图像的类别。

9、本申请的第三方面公开了一种图像分类模型,所述模型包括,特征提取层,用于提取图像样本的高阶特征,其中所述图像样本为图像三元组,包括查询图像、第三支持图像和第四支持图像;交叉注意力层,用于对所述高阶特征交叉注意处理;自注意力层,用于增强所述交叉注意力层的输出的表征;以及损失计算层,用于基于所述自注意力层的输出计算损失。

10、在上述第三方面的一种可能的实现中,所述交叉注意力层包括第一门控单元和第二门控单元,其中所述第一门控单元被配置为调节所述第三支持图像的注意力矩阵以及所述查询图像的重构特征,所述第二门控单元被配置为调节所述第四支持图像的注意力矩阵以及所述查询图像的重构特征。

11、在上述第三方面的一种可能的实现中,所述自注意力层包括第三门控单元和第四门控单元,其中所述第三门控单元被配置为计算所述第三支持图像、所述查询图像和所述第四支持图像之间的相似度,所述第四门控单元被配置为计算所述第四支持图像、所述查询图像和所述第三支持图像之间的相似度。

12、本申请的第四方面公开了一种计算设备集群,包括至少一个计算设备,每个计算设备包括处理器和存储器;所述至少一个计算设备的处理器用于执行所述至少一个计算设备的存储器中存储的指令,以使得所述计算设备集群执行根据本申请第一、第二方面的方法。

13、本申请的第五方面公开了一种计算机可读介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本申请第一、第二方面的方法。

14、本申请的第六方面公开了一种计算机程序产品,所述计算机程序被处理器执行时实现本申请第一、第二方面的方法。

15、本申请提供的图像分类模型的训练方法、图像分类方法、模型、计算机设备及介质,训练样本包括查询图像、与查询图像属于相同类别的正图像、以及与查询图像属于不同类别的负图像。另外,在多头交叉注意力层中,以查询图像为锚点与包括正、负图像的支持图像进行交叉注意操作;在多头自注意力层中对每张支持图像进行自我关注以增强每张图像的表征。此外,以对比损失作为学习目标,使得查询图像的特征与目标支持图像的特征越来越近,查询图像与另一支持图像的特征越来越远。本申请的图像分类模型的训练方法在多个小样本学习基准上具有较高的学习判别能力,并具有较高的类似视觉概念的区分能力。

本文档来自技高网...

【技术保护点】

1.一种图像分类模型的训练方法,应用于客户端,其特征在于,包括,

2.根据权利要求1所述的方法,其特征在于,所述交叉注意处理包括对所述向量特征的三个分支分别进行四次交叉注意力操作。

3.根据权利要求2所述的方法,其特征在于,所述交叉注意力层包括第一门控单元和第二门控单元,其中所述第一门控单元被配置为调节所述正图像的注意力矩阵以及所述查询图像的重构特征,所述第二门控单元被配置为调节所述负图像的注意力矩阵以及所述查询图像的重构特征。

4.根据权利要求1所述的方法,其特征在于,所述自注意力层包括第三门控单元和第四门控单元,其中所述第三门控单元被配置为计算所述正图像、所述查询图像和所述负图像之间的相似度,所述第四门控单元被配置为计算所述负图像、所述查询图像和所述正图像之间的相似度。

5.根据权利要求1所述的方法,其特征在于,基于所述自注意力层的输出计算损失包括,计算所述自注意力层的输出之间的相似度;以及

6.根据权利要求1所述的方法,其特征在于,所述训练样本还包括第二图像三元组,其包括第二查询图像,与所述第二查询图像属于不同类别的第二负图像以及与所述第二查询图像属于不同类别的第三负图像,并且所述第二图像三元组在所述训练样本中是按照预定的比例设置的。

7.根据权利要求6所述的方法,其特征在于,所述预定的比例为0.2。

8.一种图像分类方法,应用于客户端,其特征在于,包括,

9.一种图像分类模型,其特征在于,所述模型包括,

10.根据权利要求9所述的图像分类模型,其特征在于,所述交叉注意力层包括第一门控单元和第二门控单元,其中所述第一门控单元被配置为调节所述第三支持图像的注意力矩阵以及所述查询图像的重构特征,所述第二门控单元被配置为调节所述第四支持图像的注意力矩阵以及所述查询图像的重构特征。

11.根据权利要求9所述的图像分类模型,其特征在于,所述自注意力层包括第三门控单元和第四门控单元,其中所述第三门控单元被配置为计算所述第三支持图像、所述查询图像和所述第四支持图像之间的相似度,所述第四门控单元被配置为计算所述第四支持图像、所述查询图像和所述第三支持图像之间的相似度。

12.一种计算设备集群,其特征在于,包括至少一个计算设备,每个计算设备包括处理器和存储器;所述至少一个计算设备的处理器用于执行所述至少一个计算设备的存储器中存储的指令,以使得所述计算设备集群执行权利要求1至7中任一项所述的图像分类模型的训练方法;或者权利要求8所述的图像分类方法。

13.一种计算机可读介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1至7中任一项所述的图像分类模型的训练方法;或者权利要求8所述的图像分类方法。

14.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的图像分类模型的训练方法;或者权利要求8所述的图像分类方法。

...

【技术特征摘要】

1.一种图像分类模型的训练方法,应用于客户端,其特征在于,包括,

2.根据权利要求1所述的方法,其特征在于,所述交叉注意处理包括对所述向量特征的三个分支分别进行四次交叉注意力操作。

3.根据权利要求2所述的方法,其特征在于,所述交叉注意力层包括第一门控单元和第二门控单元,其中所述第一门控单元被配置为调节所述正图像的注意力矩阵以及所述查询图像的重构特征,所述第二门控单元被配置为调节所述负图像的注意力矩阵以及所述查询图像的重构特征。

4.根据权利要求1所述的方法,其特征在于,所述自注意力层包括第三门控单元和第四门控单元,其中所述第三门控单元被配置为计算所述正图像、所述查询图像和所述负图像之间的相似度,所述第四门控单元被配置为计算所述负图像、所述查询图像和所述正图像之间的相似度。

5.根据权利要求1所述的方法,其特征在于,基于所述自注意力层的输出计算损失包括,计算所述自注意力层的输出之间的相似度;以及

6.根据权利要求1所述的方法,其特征在于,所述训练样本还包括第二图像三元组,其包括第二查询图像,与所述第二查询图像属于不同类别的第二负图像以及与所述第二查询图像属于不同类别的第三负图像,并且所述第二图像三元组在所述训练样本中是按照预定的比例设置的。

7.根据权利要求6所述的方法,其特征在于,所述预定的比例为0.2。

8.一种图像分类方法,应用于客户端,其特征在于,包括,

9.一种图像分类模型,其特征在...

【专利技术属性】
技术研发人员:戈维峰孙翊轩崔晋
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1