当前位置: 首页 > 专利查询>山东大学专利>正文

一种细粒度图像检索方法、系统、设备及存储介质技术方案

技术编号:38019313 阅读:17 留言:0更新日期:2023-06-30 10:46
本发明专利技术涉及图像检索技术领域,特别是涉及一种细粒度图像检索方法、系统、设备及存储介质,其中方法包括:将待检索图像输入到训练后的图像检索模型中,输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征;将图像数据库的若干幅图像,输入到训练后的图像检索模型中,输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征;计算待检索图像与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离,按照第一距离筛选排序靠前的M个图像;计算待检索图像与已筛选的M个图像的融合后的图像区域特征之间的第二距离,按照第二距离排序,得到最终的检索结果。本发明专利技术更好地度量两张图片之间的相似性。性。性。

【技术实现步骤摘要】
一种细粒度图像检索方法、系统、设备及存储介质


[0001]本专利技术涉及图像检索
,特别是涉及一种细粒度图像检索方法、系统、设备及存储介质。

技术介绍

[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]图像检索是计算机视觉领域中一个非常重要的研究任务。近些年,随着技术的发展,更具有挑战性的子任务相继被提出并吸引了越来越多的关注,细粒度图像检索便是其中广受关注的一个。在该子任务中,基于卷积神经网络的方法已经取得了不错的性能。借助于卷积神经网络(CNN),这些方法可以充分地提取并利用图像的全局特征。
[0004]然而,在细粒度图像检索任务中,局部特征对于提高检索准确性来说同样具有非常重要的作用。最近,基于Vision Transformer(ViT)的方法在传统的图像分析领域取得了巨大的成功,这归因于ViT在捕获图像中最具有判别力的区域和图像中细粒度特征方面具有天然的优势。然而,通过我们的实验发现,当基于纯ViT的方法应用于细粒度图像检索任务时,在汽车之类的钢体图像上表现得并不令人满意。
[0005]具体来说,现有的方法主要面临以下问题:(1)细粒度的图像具有类内差异较大、类间差异较小的特点,这使得其相对于传统的基于内容的图像检索任务来说具有更大的挑战性;(2)基于CNN的模型在提取图像的全局信息表示方面具有很大的优势,但是对于图像的细粒度信息方面关注度不够,而对于细粒度来说,对局部信息的描述也同样重要;(3)现有的基于ViT的细粒度图像分析方法虽然在捕获图像细节信息方面具有先天的优势,然而对于一些细节差异较小的图像来说,通过自注意力机制得到的全局特征并不能充分地描述图像的全局信息;(4)现有的尝试同时应用CNN和ViT的模型没有充分地发挥出二者之间的各自优势。此外,无论是ViT还是CNN和ViT的混合架构在细粒度图像检索任务上的应用目前都仍缺乏相关的应用方法。

技术实现思路

[0006]为了解决现有技术的不足,本专利技术提供了一种细粒度图像检索方法、系统、设备及存储介质;该方法利用CNN和ViT进行特征提取,同时保证了模型对于图像全局特征和局部细粒度特征的关注度。此外,通过引入特征融合模块来丰富特征信息,同时设计了新的损失函数来更好地度量两张图片之间的相似性。
[0007]第一方面,本专利技术提供了一种细粒度图像检索方法;一种细粒度图像检索方法,包括:获取待检索图像和图像数据库;将待检索图像输入到训练后的图像检索模型中,输出待检索图像的融合后的类别
嵌入特征和融合后的图像区域特征;将图像数据库的若干幅图像,输入到训练后的图像检索模型中,输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征;计算待检索图像的融合后的类别嵌入特征,与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离,按照第一距离由小到大的顺序对图像数据库中的图像进行相似度排序,筛选排序靠前的M个图像,M为正整数,M的取值大于等于2;计算待检索图像的融合后的图像区域特征,与已筛选的M个图像的融合后的图像区域特征之间的第二距离,按照第二距离由小到大的顺序对已筛选的M个图像进行相似度排序,得到最终的检索结果。
[0008]第二方面,本专利技术提供了一种细粒度图像检索系统;一种细粒度图像检索系统,包括:获取模块,其被配置为:获取待检索图像和图像数据库;特征提取模块,其被配置为:将待检索图像输入到训练后的图像检索模型中,输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征;将图像数据库的若干幅图像,输入到训练后的图像检索模型中,输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征;排序模块,其被配置为:计算待检索图像的融合后的类别嵌入特征,与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离,按照第一距离由小到大的顺序对图像数据库中的图像进行相似度排序,筛选排序靠前的M个图像,M为正整数,M的取值大于等于2;输出模块,其被配置为:计算待检索图像的融合后的图像区域特征,与已筛选的M个图像的融合后的图像区域特征之间的第二距离,按照第二距离由小到大的顺序对已筛选的M个图像进行相似度排序,得到最终的检索结果。
[0009]第三方面,本专利技术还提供了一种电子设备,包括:存储器,用于非暂时性存储计算机可读指令;以及处理器,用于运行所述计算机可读指令,其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
[0010]第四方面,本专利技术还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
[0011]第五方面,本专利技术还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
[0012]与现有技术相比,本专利技术的有益效果是:1、本专利技术中创新性地将混合ViT架构引入到细粒度图像检索任务中,并提出了一个基于混合ViT的细粒度图像检索方法,简称为TIGER。与占主导地位的特征提取骨干网络相比,TIGER取得了更加具有竞争力的性能。
[0013]2、本专利技术中提出了关键区域重分析和混合网络特征融合两个新颖的模块。前者通过CNN生成的权重来指导ViT中关键patch的选择,从而生成更有代表性的class

token。后者有效地整合了ViT和CNN的特征,使输出特征能够蕴含更丰富的信息。通过引入这两个模块,模型能够很好地发挥CNN和ViT的共同作用,从而提高本专利技术在细粒度图像检索任务上
的性能。
[0014]3、为了更充分地利用图像的全局和局部特征,本专利技术中提出了一种全局

局部对齐损失函数。通过同时计算class

token之间的距离和每个patch对之间的距离,可以更好地度量两个图像之间的相似性,从而保证能够返回正确的查询结果。
[0015]4、本专利技术中提出了一个二次排序机制,在保证检索准确率的基础上,进一步提高了检索的速度和效率,有效保证了本专利技术在现实世界中的可应用性。
附图说明
[0016]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0017]图1为实施例一的方法流程图;图2为实施例一的训练后的图像检索模型内部网络结构图;图3为实施例一的关键区域重分析模块内部网络结构图;图4为实施例一的全局类别嵌入特征提取模块内部网络结构图;图5为实施例一的局部图像区域特征提取模块内部网络结构图。
具体实施方式
[0018]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0019]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种细粒度图像检索方法,其特征是,包括:获取待检索图像和图像数据库;将待检索图像输入到训练后的图像检索模型中,输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征;将图像数据库的若干幅图像,输入到训练后的图像检索模型中,输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征;计算待检索图像的融合后的类别嵌入特征,与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离,按照第一距离由小到大的顺序对图像数据库中的图像进行相似度排序,筛选排序靠前的M个图像,M为正整数,M的取值大于等于2;计算待检索图像的融合后的图像区域特征,与已筛选的M个图像的融合后的图像区域特征之间的第二距离,按照第二距离由小到大的顺序对已筛选的M个图像进行相似度排序,得到最终的检索结果。2.如权利要求1所述的一种细粒度图像检索方法,其特征是,获取待检索图像和图像数据库,其中,待检索图像是采用图像采集设备采集的图像,或,终端设备已存储的图像;图像数据库中包括若干幅已知图像。3.如权利要求1所述的一种细粒度图像检索方法,其特征是,所述训练后的图像检索模型,包括:特征图提取网络,所述特征图提取网络的输入端用于输入待检索图像和图像数据库的若干幅图像;所述特征图提取网络的输出端与卷积层连接;所述卷积层,用于对特征图提取网络输出的特征图进行分割操作,得到若干个图像区域;所述卷积层的输出端与类别嵌入模块的输入端连接,类别嵌入模块的输出端与位置嵌入模块的输入端连接;其中,类别嵌入模块,用于实现图像类别的嵌入;位置嵌入模块用于实现图像位置的嵌入;图像位置,用于表示图像中每个区域的位置信息;位置嵌入模块的输出端与特征向量提取网络的输入端连接;特征向量提取网络的输出端与关键区域重分析模块的输入端连接,关键区域重分析模块的输出端与第一特征融合模块的输入端连接;特征向量提取网络的输出端还与第二特征融合模块的输入端连接;所述特征图提取网络的输出端还分别与全局类别嵌入特征提取模块的输入端和局部图像区域特征提取模块的输入端连接;所述全局类别嵌入特征提取模块的输出端与第一特征融合模块的输入端连接;所述局部图像区域特征提取模块的输出端与第二特征融合模块的输入端连接;第一特征融合模块的输出端和第二特征融合模块的输出端均与损失函数模块的输入端连接,损失函数模块的输出端输出图像之间的距离。4.如权利要求1所述的一种细粒度图像检索方法,其特征是,训练后的图像检索模型,用于:对输入的图像进行特征图提取;对提取的特征图进行分割,得到若干个图像区域;对所得图像区域进行类别嵌入操作和位置嵌入操作,对嵌入操作后的每个图像区域进行特征向量提取,得到特征向量矩阵;所述特征向量矩阵,包括:类别嵌入特征和图像区域特征;对得到的特征向量矩阵的类别嵌入特征进行关键区域重分析,得到具有代表性的类别
嵌入特征;对提取的特征图分别提取全局类别嵌入特征和局部图像区域特征;将具有代表性的类别嵌入特征与全局类别嵌入特征进行特征融合,得到融合后的类别嵌入特征;将特征向量矩阵的图像区域特征进行层归一化操作,将层归一化操作结果与局部图像区域特征进行特征融合,得到融合后的图像区域特征。5.如权利要求4所述的一...

【专利技术属性】
技术研发人员:许信顺修丙楠陈振铎罗昕
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1