一种细粒度图像检索方法、系统、设备及存储介质技术方案

技术编号：38019313 阅读：17 留言：0更新日期：2023-06-30 10:46

本发明专利技术涉及图像检索技术领域，特别是涉及一种细粒度图像检索方法、系统、设备及存储介质，其中方法包括：将待检索图像输入到训练后的图像检索模型中，输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征；将图像数据库的若干幅图像，输入到训练后的图像检索模型中，输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征；计算待检索图像与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离，按照第一距离筛选排序靠前的M个图像；计算待检索图像与已筛选的M个图像的融合后的图像区域特征之间的第二距离，按照第二距离排序，得到最终的检索结果。本发明专利技术更好地度量两张图片之间的相似性。性。性。

全部详细技术资料下载

【技术实现步骤摘要】
一种细粒度图像检索方法、系统、设备及存储介质

[0001]本专利技术涉及图像检索
，特别是涉及一种细粒度图像检索方法、系统、设备及存储介质。

技术介绍

[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
，并不必然构成现有技术。
[0003]图像检索是计算机视觉领域中一个非常重要的研究任务。近些年，随着技术的发展，更具有挑战性的子任务相继被提出并吸引了越来越多的关注，细粒度图像检索便是其中广受关注的一个。在该子任务中，基于卷积神经网络的方法已经取得了不错的性能。借助于卷积神经网络（CNN），这些方法可以充分地提取并利用图像的全局特征。
[0004]然而，在细粒度图像检索任务中，局部特征对于提高检索准确性来说同样具有非常重要的作用。最近，基于Vision Transformer（ViT）的方法在传统的图像分析领域取得了巨大的成功，这归因于ViT在捕获图像中最具有判别力的区域和图像中细粒度特征方面具有天然的优势。然而，通过我们的实验发现，当基于纯ViT的方法应用于细粒度图像检索任务时，在汽车之类的钢体图像上表现得并不令人满意。
[0005]具体来说，现有的方法主要面临以下问题：（1）细粒度的图像具有类内差异较大、类间差异较小的特点，这使得其相对于传统的基于内容的图像检索任务来说具有更大的挑战性；（2）基于CNN的模型在提取图像的全局信息表示方面具有很大的优势，但是对于图像的细粒度信息方面关注度不够，而对于细粒度来说，对局部信息的描述也同样重要；（3）现有的基于ViT的细粒度图像分析...

【技术保护点】

【技术特征摘要】
1.一种细粒度图像检索方法，其特征是，包括：获取待检索图像和图像数据库；将待检索图像输入到训练后的图像检索模型中，输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征；将图像数据库的若干幅图像，输入到训练后的图像检索模型中，输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征；计算待检索图像的融合后的类别嵌入特征，与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离，按照第一距离由小到大的顺序对图像数据库中的图像进行相似度排序，筛选排序靠前的M个图像，M为正整数，M的取值大于等于2；计算待检索图像的融合后的图像区域特征，与已筛选的M个图像的融合后的图像区域特征之间的第二距离，按照第二距离由小到大的顺序对已筛选的M个图像进行相似度排序，得到最终的检索结果。2.如权利要求1所述的一种细粒度图像检索方法，其特征是，获取待检索图像和图像数据库，其中，待检索图像是采用图像采集设备采集的图像，或，终端设备已存储的图像；图像数据库中包括若干幅已知图像。3.如权利要求1所述的一种细粒度图像检索方法，其特征是，所述训练后的图像检索模型，包括：特征图提取网络，所述特征图提取网络的输入端用于输入待检索图像和图像数据库的若干幅图像；所述特征图提取网络的输出端与卷积层连接；所述卷积层，用于对特征图提取网络输出的特征图进行分割操作，得到若干个图像区域；所述卷积层的输出端与类别嵌入模块的输入端连接，类别嵌入模块的输出端与位置嵌入模块的输入端连接；其中，类别嵌入模块，用于实现图像类别的嵌入；位置嵌入模块用于实现图像位置的嵌入；图像位置，用于表示图像中每个区域的位置信息；位置嵌入模块的输出端与特征向量提取网络的输入端连接；特征向量提取网络的输出端与关键区域重分析模块的输入端连接，关键区域重分析模块的输出端与第一特征融合模块的输入端连接；特征向量提取网络的输出端还与第二特征融合模块的输入端连接；所述特征图提取网络的输出端还分别与全局类别嵌入特征提取模块的输入端和局部图像区域特征提取模块的输入端连接；所述全局类别嵌入特征提取模块的输出端与第一特征融合模块的输入端连接；所述局部图像区域特征提取模块的输出端与第二特征融合模块的输入端连接；第一特征融合模块的输出端和第二特征融合模块的输出端均与损失函数模块的输入端连接，损失函数模块的输出端输出图像之间的距离。4.如权利要求1所述的一种细粒度图像检索方法，其特征是，训练后的图像检索模型，用于：对输入的图像进行特征图提取；对提取的特征图进行分割，得到若干个图像区域；对所得图像区域进行类别嵌入操作和位置嵌入操作，对嵌入操作后的每个图像区域进行特征向量提取，得到特征向量矩阵；所述特征向量矩阵，包括：类别嵌入特征和图像区域特征；对得到的特征向量矩阵的类别嵌入特征进行关键区域重分析，得到具有代表性的类别
嵌入特征；对提取的特征图分别提取全局类别嵌入特征和局部图像区域特征；将具有代表性的类别嵌入特征与全局类别嵌入特征进行特征融合，得到融合后的类别嵌入特征；将特征向量矩阵的图像区域特征进行层归一化操作，将层归一化操作结果与局部图像区域特征进行特征融合，得到融合后的图像区域特征。5.如权利要求4所述的一...

【专利技术属性】
技术研发人员：许信顺，修丙楠，陈振铎，罗昕，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人