一种基于对象规模感知的多标签图像检索方法和系统技术方案

技术编号:37597408 阅读:8 留言:0更新日期:2023-05-18 11:45
本发明专利技术公开了一种基于对象规模感知的多标签图像检索方法,其利用感知图像对象规模的哈希质心,构建了一个具有较高检索性能的端到端多标签图像检索方法。本发明专利技术提出的方法首先利用Swin Transformer骨干网络作为图像特征提取器,用标签语义信息指导哈希中心点的生成,并提出与对象规模相关的标签亲和度系数的计算方法,二者共同生成包含了对象规模的哈希质心。这些哈希质心作为汉明空间中的锚点,引导多标签图像哈希码不断靠近其对应哈希质心,通过不断的优化基于中心相似性损失函数,使得模型学习到良好的哈希映射关系。本发明专利技术使用的哈希质心包含了图像中不同对象的规模信息,结合Swin Transformer骨干网络的强大特征提取能能力,大大提高了图像检索方法的检索性能。大大提高了图像检索方法的检索性能。大大提高了图像检索方法的检索性能。

【技术实现步骤摘要】
一种基于对象规模感知的多标签图像检索方法和系统


[0001]本专利技术属于模式识别和图像检索
,更具体地,涉及一种基于对象规模感知的多标签图像检索方法和系统。

技术介绍

[0002]如今,多标签图像检索(Multi

label image retrieval)在计算机视觉领域已经得到了日趋广泛的应用,包括多目标识别、数据库、存储系统和搜索引擎等。由于每张图像中都包含多个对象,因此如何利用不同对象的规模对模型的正向作用、以及如何将这些规模信息与检索算法进行高效融合依然面临着挑战。
[0003]一般而言,现有的多标签图像检索方法首先利用特征提取网络得到整张图像的特征向量,然后利用哈希层将这些特征向量映射为预设位长的哈希码,最后直接采用基于成对损失的哈希损失函数指导模型的训练。
[0004]然而,现有多标签图像检索方法存在一些不可忽略的缺陷:第一、由于不同对象之间规模差异巨大,这会对图像的特征向量产生不同的影响,使得检索模型无法得到最佳的平均精度(Mean average precision,简称MAP),进而影响最终的检索性能;第二,由于现有方法常用基于成对损失的哈希损失函数,因此导致模型训练更新过程中的计算开销巨大。

技术实现思路

[0005]针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于对象规模感知的多标签图像检索方法和系统,其目的在于,解决现有多标签图像检索方法由于不同对象之间规模差异巨大,这会对图像的特征向量产生不同的影响,使得检索模型无法得到最佳的MAP、进而影响最终检索性能的技术问题,以及由于现有方法常用基于成对损失的哈希损失函数,因此导致了模型训练更新过程中存在巨大计算开销的技术问题。
[0006]为实现上述目的,按照本专利技术的一个方面,提供了一种基于对象规模感知的多标签图像检索方法,包括以下步骤:
[0007](1)获取待检索图像以及图像数据库中的多个图像样本,使用PIL库将该待检索图像和每个图像样本分别转换为多维张量,所有多维张量构成多维张量集合;
[0008](2)将步骤(1)得到的多维张量集合输入预先训练好的检索模型中,以得到待检索图像对应的哈希码,以及每个图像样本对应的哈希码;
[0009](3)针对步骤(2)得到的每个图像样本对应的哈希码而言,计算其与步骤(2)得到的待检索图像对应的哈希码之间的相似度,根据得到的多个相似度计算结果选择与待检索图像匹配的多个图像样本输出。
[0010]优选地,检索模型包括依次连接的Swin Transformer网络、哈希映射层和哈希中心生成网络。
[0011]优选地,Swin Transformer网络接收输入维度为bs
×3×
448
×
448的张量,输出维度为bs
×
768的矩阵,bs为训练过程中设置的批量数据大小。
[0012]哈希映射层由三层全连接层连接而成。第一层的输入为Swin Transformer网络输出的维度为bs
×
768矩阵,该层使用768
×
512维权重矩阵,该层的输出为bs
×
512维矩阵;第二层的输入为第一层输出的bs
×
512维矩阵,该层使用512
×
256维权重矩阵,输出为bs
×
256维矩阵;第三层的输入为第二层输出的bs
×
256维矩阵,该层使用256
×
K维权重矩阵,输出为bs
×
K维矩阵。其中,K表示哈希码长度。
[0013]哈希中心生成网络包含3个堆叠而成的全连接层。第一层输入为C
×
D维标签词向量矩阵,该层使用D
×
512维权重矩阵,该层输出为C
×
512维矩阵;第二层输入为第一层输出的C
×
512维矩阵,使用512
×
256维权重矩阵,该层输出为C
×
256维哈希中心点矩阵;第三层输入为第二层输出的C
×
256维矩阵,使用256
×
K维权重矩阵,该层输出为C
×
K维哈希中心点矩阵,其中K表示哈希码位长,且有K∈{16,32,48,64},C表示图像数据库中包含的所有标签类别个数,D表示每个标签词向量的维度。
[0014]优选地,检索模型是通过以下步骤训练得到的:
[0015](2

1)获取N
train
张图像所构成的训练集,N
test
张图像所构成的测试集,和N
db
张图像构成的数据库集。训练集图像样本组成矩阵将训练集中每张图像样本x
i
输入到Swin Transformer网络中,以提取训练集中每张图像样本的特征向量,在将每张图像样本的特征向量输入哈希映射层,以得到在训练轮次t时,图像样本x
i
对应的、位长为K的连续值哈希码所有图像样本对应的在训练轮次t时的连续值哈希码构成矩阵每张图像样本x
i
对应的连续值哈希码为:
[0016][0017]其中N
train
,N
test
和N
db
均为正整数,F
Swin
表示Swin Transformer网络,表示Swin Transformer网络在训练轮次t时的可学习参数,f
hash
表示哈希映射层,表示哈希映射层中在训练轮次t时的可学习参数。
[0018](2

2)获取训练集中每张图像样本x
i
的标签,使用BERT词向量映射技术获取每个标签对应的标签词向量,所有的标签词向量构成一个C
×
D维标签词向量矩阵将标签词向量矩阵M
label
输入哈希中心生成网络,以得到在训练轮次t时维度为C
×
K的哈希中心点矩阵
[0019](2

3)针对训练集中的每个图像样本x
i
而言,为该图像样本x
i
建立标签亲和度系数其初始值等于t代表训练轮次,且有t∈[0,50]:
[0020](2

4)针对训练集中的每个图像样本x
i
而言,根据步骤(2

3)得到的该图像样本x
i
的标签亲和度系数、以及步骤(2

2)所获得的哈希中心点矩阵获取与该图像样本x
i
对应的哈希质心r
i
,所有图像样本对应的在训练轮次t时的哈希质心构成哈希质心集合
[0021](2

5)根据步骤(2

1)得到的训练轮次t时的连续值哈希码矩阵以
及步骤(2

4)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对象规模感知的多标签图像检索方法,其特征在于,包括以下步骤:(1)获取待检索图像以及图像数据库中的多个图像样本,使用PIL库将该待检索图像和每个图像样本分别转换为多维张量,所有多维张量构成多维张量集合;(2)将步骤(1)得到的多维张量集合输入预先训练好的检索模型中,以得到待检索图像对应的哈希码,以及每个图像样本对应的哈希码;(3)针对步骤(2)得到的每个图像样本对应的哈希码而言,计算其与步骤(2)得到的待检索图像对应的哈希码之间的相似度,根据得到的多个相似度计算结果选择与待检索图像匹配的多个图像样本输出。2.根据权利要求1所述的基于对象规模感知的多标签图像检索方法,其特征在于,检索模型包括依次连接的Swin Transformer网络、哈希映射层和哈希中心生成网络。3.根据权利要求1或2所述的基于对象规模感知的多标签图像检索方法,其特征在于,Swin Transformer网络接收输入维度为bs
×3×
448
×
448的张量,输出维度为bs
×
768的矩阵,bs为训练过程中设置的批量数据大小。哈希映射层由三层全连接层连接而成。第一层的输入为Swin Transformer网络输出的维度为bs
×
768矩阵,该层使用768
×
512维权重矩阵,该层的输出为bs
×
512维矩阵;第二层的输入为第一层输出的bs
×
512维矩阵,该层使用512
×
256维权重矩阵,输出为bs
×
256维矩阵;第三层的输入为第二层输出的bs
×
256维矩阵,该层使用256
×
K维权重矩阵,输出为bs
×
K维矩阵。其中,K表示哈希码长度。哈希中心生成网络包含3个堆叠而成的全连接层。第一层输入为C
×
D维标签词向量矩阵,该层使用D
×
512维权重矩阵,该层输出为C
×
512维矩阵;第二层输入为第一层输出的C
×
512维矩阵,使用512
×
256维权重矩阵,该层输出为C
×
256维哈希中心点矩阵;第三层输入为第二层输出的C
×
256维矩阵,使用256
×
K维权重矩阵,该层输出为C
×
K维哈希中心点矩阵,其中K表示哈希码位长,且有K∈{16,32,48,64},C表示图像数据库中包含的所有标签类别个数,D表示每个标签词向量的维度。4.根据权利要求1至3中任意一项所述的基于对象规模感知的多标签图像检索方法,其特征在于,检索模型是通过以下步骤训练得到的:(2

1)获取N
train
张图像所构成的训练集,N
test
张图像所构成的测试集,和N
db
张图像构成的数据库集。训练集图像样本组成矩阵将训练集中每张图像样本x
i
输入到Swin Transformer网络中,以提取训练集中每张图像样本的特征向量,在将每张图像样本的特征向量输入哈希映射层,以得到在训练轮次t时,图像样本x
i
对应的、位长为K的连续值哈希码所有图像样本对应的在训练轮次t时的连续值哈希码构成矩阵每张图像样本x
i
对应的连续值哈希码为:其中N
train
,N
test
和N
db
均为正整数,F
Swin
表示Swin Transformer网络,表示Swin Transformer网络在训练轮次t时的可学习参数,f
hash
表示哈希映射层,表示哈希映射层中在训练轮次t时的可学习参数。
(2

2)获取训练集中每张图像样本x
i
的标签,使用BERT词向量映射技术获取每个标签对应的标签词向量,所有的标签词向量构成一个C
×
D维标签词向量矩阵将标签词向量矩阵M
label
输入哈希中心生成网络,以得到在训练轮次t时维度为C
×
K的哈希中心点矩阵(2

3)针对训练集中的每个图像样本x
i
而言,为该图像样本x
i
建立标签亲和度系数其初始值等于t代表训练轮次,且有t∈[0,50]:(2

4)针对训练集中的每个图像样本x
i
而言,根据步骤(2

3)得到的该图像样本x
i
的标签亲和度系数、以及步骤(2

2)所获得的哈希中心点矩阵获取与该图像样本x
i
对应的哈希质心r
i
,所有图像样本对应的在训练轮次t时的哈希质心构成哈希质心集合(2

5)根据步骤(2

1)得到的训练轮次t时的连续值哈希码矩阵以及步骤(2

4)得到的训练轮次t时的哈希质心集合获取损失函数。(2

6)根据步骤(2

5)获得的损失函数L1和L2,针对L1分别关于训练轮次t

1时的Swin Transformer网络的可学习参数和分别求梯度,即和针对L2关于求导得到再按照以下公式得到更新后的可学习参数和(2

7)将...

【专利技术属性】
技术研发人员:谢延昭魏如凯刘渝周可
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1