一种基于标签视觉联合感知的无监督图像检索方法和系统技术方案

技术编号：37467165 阅读：9 留言：0更新日期：2023-05-06 09:42

本发明专利技术公开了一种基于标签视觉联合感知的无监督图像检索方法，首先获取待检索图像以及图像数据库中的多个图像，使用PIL库将该待检索图像和每个图像分别转换为多维张量，所有多维张量构成多维张量集合，然后将多维张量集合输入预先训练好的检索模型中，以得到待检索图像对应的哈希码，以及每个图像对应的哈希码，针对每个图像对应的哈希码而言，计算其与待检索图像对应的哈希码之间的相似度，其中检索模型包括依次连接的ResNet

全部详细技术资料下载

【技术实现步骤摘要】
一种基于标签视觉联合感知的无监督图像检索方法和系统

[0001]本专利技术属于计算机视觉和图像检索
，更具体地，涉及一种基于标签视觉联合感知的无监督图像检索方法和系统。

技术介绍

[0002]如今，多标签图像检索(Multi
‑
label image retrieval)在计算机视觉领域已经得到了日趋广泛的应用，包括智能安防、智慧城市、数据库、存储系统和搜索引擎等。由于实际中海量的多标签图像都是没有人工标注(即标签)的，因此如何挖掘图像中对象之间的共现关系，并利用多个对象之间视觉相关性，以及如何将这些信息与检索算法进行高效融合依然面临着挑战。
[0003]一般而言，现有的无监督多标签图像检索方法首先是利用预训练的模型生成伪标签并构建监督信号，再利用特征提取网络得到整张图像的特征向量，然后，利用哈希层将这些特征向量映射为预设位长的哈希码，最后，可以直接采用基于成对损失或其他类别的哈希损失函数来指导模型的训练。
[0004]然而，上述无监督多标签图像检索方法存在一些不可忽略的缺陷：第一、该方法忽略了不同对象之间具有的相互依赖关系，这导致检索模型无法得到最佳的平均精确率均值(Mean average precision，简称MAP)，进而影响最终的检索性能；第二，由于该方法常常使用预训练模型提取多标签图像的伪标签，并作为监督信号加以利用，但未能有效控制其中包含的噪声信号，因此也进一步降低了检索模型的MAP，进而降低了最终的检索精度；第三，由于该方法无法高效地融合伪标签共现信息和图像特...

【技术保护点】

【技术特征摘要】
1.一种基于标签视觉联合感知的无监督图像检索方法，其特征在于，包括以下步骤：(1)获取待检索图像以及图像数据库中的多个图像，使用PIL库将该待检索图像和每个图像分别转换为多维张量，所有多维张量构成多维张量集合；(2)将步骤(1)得到的多维张量集合输入预先训练好的检索模型中，以得到待检索图像对应的哈希码，以及每个图像对应的哈希码；(3)针对步骤(2)得到的每个图像对应的哈希码而言，计算其与步骤(2)得到的待检索图像对应的哈希码之间的相似度，根据得到的多个相似度计算结果选择与待检索图像匹配的多个图像输出。其中检索模型包括依次连接的ResNet
‑
101网络、标签共现嵌入生成网络、视觉相似性嵌入生成网络、双重OGSP网络、自监督网络、以及哈希函数学习网络。2.根据权利要求1所述的基于标签视觉联合感知的无监督图像检索方法，其特征在于，ResNet
‑
101网络接收输入维度为bs
×3×
448
×
448的张量，输出维度为bs
×
14
×
14
×
D
feat
的矩阵，再经过全局最大池化操作得到维度为bs
×
D
feat
的特征向量矩阵，bs为训练过程中设置的批量数据大小，D
feat
表示输出的图像特征向量维度；标签共现嵌入生成网络包含2个堆叠而成的图卷积层，第一层输入为C
×
D维伪标签词向量构成的矩阵和维度为C
×
C的标签共现关系矩阵，该层使用D
×
1024维权重矩阵，该层输出为C
×
1024维矩阵；第二层输入为第一层输出的C
×
1024维矩阵和维度为C
×
C的标签共现关系矩阵，使用1024
×
D
feat
维权重矩阵，该层输出为C
×
D
feat
维标签级别共现嵌入矩阵，其中C表示图像数据库中包含的所有标签类别个数，D表示每个伪标签词向量的维度。视觉相似性嵌入生成网络包含2个堆叠而成的图卷积层。第一层输入维度为Spl
×
D
pre
‑
feat
的预提取图像特征向量构成的矩阵和视觉关系矩阵，该层使用D
pre
‑
feat
×
D
feat
维权重矩阵，该层输出为Spl
×
D
feat
维矩阵；第二层输入为第一层输出的Spl
×
D
feat
维矩阵和视觉关系矩阵，使用D
feat
×
D
feat
维权重矩阵，该层输出为Spl
×
D
feat
维视觉相似性嵌入矩阵，预提取图像特征向量维度为D
pre
‑
feat
＝50
×
2048，随机采样图像个数为Spl＝1000。3.根据权利要求1或2所述的基于标签视觉联合感知的无监督图像检索方法，其特征在于，双重OGSP网络包括3层，其结构如下：第一层为两个并列的哈达玛积运算层，其输入为C
×
D
feat
维标签级共现关系矩阵、D
feat
维图像特征向量和1000
×
D
feat
维视觉关系嵌入矩阵，图像特征向量分别与标签共现关系矩阵中的C个D
feat
向量分别计算哈达玛积，同时，图像特征向量分别与1000个bs
×
D
feat
向量视觉关系嵌入向量计算哈达玛积，最终分别得到维度为bs
×1×
CD
feat
的Q1向量和维度为bs
×1×
1000D
feat
的Q2向量；第二层为池化层，其输入为上一层的Q1和Q2向量，对Q1向量执行池化操作，池化单元数为g
(1)
，输出为维标签共现融合向量对Q2向量执行池化操作，池化单元数为g
(2)
，输出为维视觉关系融合向量第三层为拼接层，输入为上一层输出的维度为的标签共现融合
向量和维度为的视觉关系融合向量拼接后作为输出标签视觉联合向量维度为哈希函数学习网络包括哈希映射层，其是由两层全连接层连接而成，第一层的输入为双重OGSP网络输出的维度为的标签视觉联合向量具体维度为128000，该层使用128000
×
4096维权重矩阵，该层的输出为4096维矩阵；第二层的输入为第一层输出的bs
×
512维矩阵，该层使用512
×
256维权重矩阵，输出为bs
×
256维矩阵；第三层的输入为第二层输出的bs
×
256维矩阵，该层使用256
×
K维权重矩阵，输出为bs
×
K维矩阵。其中，K表示哈希码长度，且K∈{16,32,64,128}。4.根据权利要求1至3中任意一项所述的基于标签视觉联合感知的无监督图像检索方法，其特征在于，检索模型是通过以下步骤训练得到的：(2
‑
1)获取N
train
张图像所构成的训练集N
test
张图像所构成的测试集，和N
db
张图像构成的数据库集，将训练集中的每张图像x
∈
∈X
train
(其中∈∈{1,2,...,N
train
})输入ResNet
‑
101网络中，以提取该图像x
∈
的特征向量训练集中所有图像对应的所有特征向量构成特征向量集合其中：其中N
train
表示训练集中图像的总数，N
test
表示测试集中的图像总数，N
db
表示数据库集中的图像总数，D
feat
表示输出的图像特征向量维度，f
res
表示ResNet
‑
101网络，f
gmp
表示全局最大池化操作，θ
res
表示ResNet
‑
101网络的可学习参数，其中∈∈{1,2,...,N
train
}。(2
‑
2)将步骤(2
‑
1)中获取的训练集X
train
中的每个元素输入预先训练好的C
‑
Tran模型中，以获取每个元素对应的伪标签，所有元素对应的伪标签构成伪标签集合该伪标签集合中共包含有C个不重复的伪标签词，使用BERT词向量技术将C个不重复的伪标签词转换为伪标签词向量集合(2
‑
3)将训练集X
train
中的每张图像输入C
‑
Trans模型，以得到每个图像各自对应的高维向量，从所有图像对应的高维向量中选取前ks个高维向量并进行拼接，以得到高维向量集合，再对该高维向量集合按照类别进行抽样，以得到图像高维向量集合其中ks＝50，采样值Spl＝1000，v
∈
表示第∈张图像的伪标签，L
i
表示第i个伪标签词对应的伪标签词向量，且有i∈[1,C]。(2
‑
4)根据伪标签集合、并利用数据集X
train
中包含伪标签v
i
的图像的个数和数据集X
train
中包含伪标签v
j
的图像的个数计算任意两类标签之间的共现条件概率，所有共现条件概率构成C
×
C维标签共现关系矩阵将伪标签词向量矩阵和标签共现关系矩阵输入标签共现嵌入生成网络中，以获得维度为C
×
D
feat
的标签级共现关系嵌入矩阵(2
‑
5)根据步骤(2
‑
3)得到的图像高维向量集合B
vis
计算高维特征向量的视觉关系矩阵
并将图像高维特征向量集合B
vis
和视觉关系矩阵同时输入视觉相似性嵌入生成网络中，以获取维度为Spl
×
D
feat
的视觉关系嵌入矩阵(2
‑
6)将步骤(2
‑
1)中获得的图像特征向量步骤(2
‑
4)得到的标签级共现关系嵌入矩阵以及步骤(2
‑
5)得到的视觉关系矩阵三者共同输入双重OGSP网络中，以获取标签视觉联合向量Q；(2
‑
7)利用均方损失MSE损失函数，对步骤(2
‑
1)中ResNet
‑
101网络的可学习参数θ
res
、步骤(2
‑
4)中的标签共现嵌入生成网络的GCN中第l层权重矩阵和视觉相似性嵌入生成网络的GCN中第l层权重矩阵进行学习和更新，以得到最优可学习参数组合(2
‑
8)根据步骤(2
‑
7)中得到的最优可学习参数组合θ
all
、并利用整体网络f
all
训练哈希函数学习网络中的可学习参数θ
hash
，并将训练集中的每张图像输入x
∈
哈希函数学习网络的哈希映射层，以得到与每个图像x
∈
对应的连续值哈希码z
∈
，所有的连续值哈希码组成集合(2
‑
9)根据步骤(2
‑
8)得到的连续值哈希码集合Z和步骤(2
‑
2)得到的伪标签集合V
label
构造基于柯西分布的交叉熵损失函数和量化损失函数并根据构造的交叉熵损失函数和量化损失函数建立损失函数(2
‑
10)根据步骤(2
‑
9)定义的损失函数计算哈希函数学习网络的损失值，并使用反向传播和梯度下降方法更新步骤(2
‑
8)得到的可学习参数θ
hash
，使用步骤(2
‑
1)中的测试集和数据库集计算哈希函数学习网络的MAP值，然后重复上述步骤(2
‑
1)...

【专利技术属性】
技术研发人员：刘渝，谢延昭，魏如凯，周可，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人