当前位置: 首页 > 专利查询>宁波大学专利>正文

一种多标签图像的哈希检索方法技术

技术编号:36021635 阅读:12 留言:0更新日期:2022-12-21 10:17
本发明专利技术公开了一种多标签图像的哈希检索方法,特点是先提取图像中每个目标的视觉特征向量与相对位置向量,通过第一、第二全连接层获取融合后的特征向量,之后经过第三全连接层,最后在第三全连接层与分类层之间添加哈希层,训练时将训练数据集随机打乱后输入待训练的哈希检索模型,根据输出结果与对应的原始标签信息修正模型参数,得到训练后的哈希检索模型,再用训练后的哈希检索模型分别对原始的图像样本及待检索图像进行哈希编码,在原始图像哈希码中查找出与待检索图像哈希码的海明距离最近的数据,完成对待检索图像的哈希检索过程;优点是能更加精细地利用原始标签信息,并且哈希检索模型能够充分训练难训练样本对,从而提高检索准确性。而提高检索准确性。

【技术实现步骤摘要】
一种多标签图像的哈希检索方法


[0001]本专利技术涉及一种哈希检索方法,尤其是一种多标签图像的哈希检索方法。

技术介绍

[0002]近些年深度神经网络取得了巨大的成功,一些哈希方法利用卷积神经网络学习到了有效的特征表示和哈希函数,相比传统手工特征的哈希方法拥有更好的性能,虽然深度哈希方法在图像检索方面取得了令人瞩目的进步,但哈希算法普遍存在以下不足: (1)现有的深度哈希方法通常将整个图像视为单个整体,即使用卷积神经网络一次性处理整个图像,这些方法对于单标签图像会比较有效,但是对于具有多项语义信息的多标签图像来说,这些方法没有充分挖掘图像中不同目标的独立特征,使模型可能只关注少数显著目标而忽略了其它具有重要信息的小目标,并且现有哈希算法没有利用图像中目标间的关系信息;(2)很多深度哈希方法在训练后无法完全保持原始空间中的相似度,即存在难以在海明空间中保持相似关系且训练后得不到显著提升的难训练样本对,现有的方法忽略了难训练样本对与易训练样本对的不平衡对于哈希网络的影响,导致难训练样本对得不到充分训练,无法使哈希码最优。
[0003]专利号为CN113436188A提出一种利用卷积计算图像哈希值的方法,该方法对单标签图像会比较有效,但是没有解决多标签图像中存在的问题。

技术实现思路

[0004]本专利技术所要解决的技术问题是提供一种检索准确率较高的多标签图像的哈希检索方法。
[0005]本专利技术解决上述技术问题所采用的技术方案为:一种多标签图像的哈希检索方法,包括以下步骤:
[0006]步骤1):在原始多标签图像数据库中存储的图像样本中选取N个图像样本并组成训练集X,X={x1,

,x
i
,

,x
N
},其中,x
i
表示X中第i个图像样本,1≤i≤N,将X中的每个图像样本对应的类别标签按序排列形成类别标签集Y,Y={y1,

,y
i
,

,y
N
},其中,y
i
表示x
i
对应的类别标签向量;
[0007]步骤2):将X中的每个图像样本通过目标检测网络得到M个目标的视觉特征向量与每个目标的位置,将M个目标的视觉特征向量归入一个目标集V
i
, V
i
={v1,

,v
i'
,

,v
M
},其中,d
v
=2048,v
i'
表示第i'个目标的视觉特征向量,1≤i'≤M,定义M个目标所在的区域为目标区域,在目标区域内获取基准点坐标,该基准点坐标的横坐标为所有目标的左上角顶点的最小横坐标值,该基准点的纵坐标为所有目标的左上角顶点的最小纵坐标值,将每个目标的左上角顶点坐标减去基准点坐标得到左上相对坐标,将每个目标的右下角顶点坐标减去基准点坐标得到右下相对坐标,再以每个目标的左上相对坐标与右下相对坐标组成的向量作为该目标的相对位置向量,将所有目标的相对位置向量按序排列形成相对位置向量集P
i
, P
i
={p1,

,p
i'
,

,p
M
},其中,p
i'
表示第i'个目标的相对位置向量;
[0008]步骤3):建立待训练的哈希检索模型,包括输入数据层、第一全连接层、第二全连接层、第三全连接层、哈希层和分类层,其中第一全连接层、第二全连接层和第三全连接层均采用RELU激活函数,将V
i
中的视觉特征向量经过第一全连接层降维得到特征维度为768的降维后的视觉特征向量,将P
i
中的相对位置向量经过第二全连接层升维得到特征维度为768的升维后的相对位置向量,将每个降维后的视觉特征向量与对应的升维后的相对位置向量进行逐位相加并求相加的两个元素的平均值,将所得结果按序排列形成融合后的图像特征向量,再将所有融合后的图像特征向量按序排列形成融合后的图像特征向量集Z
i
,Z
i
={z1,

,z
i'
,

,z
M
},其中,z
i'
表示与第i'个目标对应的融合后的图像特征向量;
[0009]步骤4):将Z
i
通过第三全连接层得到输出向量L
i
,根据L
i
获取第i个图像样本的最终特征向量f
i
,其中,AvgPool(G
i
)表示对G
i
进行平均池化操作,softmax(

)为softmax函数,L
iT
表示L
i
的转置;
[0010]步骤5):将f
i
经过哈希层处理得到哈希层的输出h
i
,h
i
=tanh(W
T
f
i
+d),其中,W 表示哈希层的权重,d表示哈希层的偏置,对h
i
进行哈希编码获取x
i
对应的哈希码b
i
,b
i
=sgn(h
i
),sgn(
·
)为符号函数,之后将h
i
经过分类层得到分类层的输出经过分类层得到分类层的输出其中,sigmoid(

)为sigmoid函数,表示分类层的权重,表示的转置,表示分类层的偏置;
[0011]步骤6):定义待训练的哈希检索模型的损失函数,将随机打乱后的训练集输入待训练的哈希检索模型后,通过反向传播算法更新待训练的哈希检索模型,训练结束后得到最终的哈希检索模型,具体过程如下:
[0012]步骤6)

1:设置最大迭代次数,定义待训练的哈希检索模型的损失函数L如下: L=L
c
+αL
h
+βL
q
,其中,α与β均为预设的超参数,L
h
表示哈希损失,其中,其中,y
j
表示第j个样本x
j
的类别标签向量,1≤j≤N,为y
i
的转置,||y
i
||2为y
i
的2

范数,||y
j
||2为y
j
的2

范数,为h
i
的转置,h
j
为x
j
对应的哈希层的输出,||h
i
||2为h
i
的2
‑ꢀ
范数,||h
j
||2为h
j
的2

范数,K为预设的待本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多标签图像的哈希检索方法,其特征在于包括以下步骤:步骤1):在原始多标签图像数据库中存储的图像样本中选取N个图像样本并组成训练集X,X={x1,

,x
i
,

,x
N
},其中,x
i
表示X中第i个图像样本,1≤i≤N,将X中的每个图像样本对应的类别标签按序排列形成类别标签集Y,Y={y1,

,y
i
,

,y
N
},其中,y
i
表示x
i
对应的类别标签向量;步骤2):将X中的每个图像样本通过目标检测网络得到M个目标的视觉特征向量与每个目标的位置,将M个目标的视觉特征向量归入一个目标集V
i
,V
i
={v1,

,v
i'
,

,v
M
},其中,d
v
=2048,v
i'
表示第i'个目标的视觉特征向量,1≤i'≤M,定义M个目标所在的区域为目标区域,在目标区域内获取基准点坐标,该基准点坐标的横坐标为所有目标的左上角顶点的最小横坐标值,该基准点的纵坐标为所有目标的左上角顶点的最小纵坐标值,将每个目标的左上角顶点坐标减去基准点坐标得到左上相对坐标,将每个目标的右下角顶点坐标减去基准点坐标得到右下相对坐标,再以每个目标的左上相对坐标与右下相对坐标组成的向量作为该目标的相对位置向量,将所有目标的相对位置向量按序排列形成相对位置向量集P
i
,P
i
={p1,

,p
i'
,

,p
M
},其中,p
i'
表示第i'个目标的相对位置向量;步骤3):建立待训练的哈希检索模型,包括输入数据层、第一全连接层、第二全连接层、第三全连接层、哈希层和分类层,其中第一全连接层、第二全连接层和第三全连接层均采用RELU激活函数,将V
i
中的视觉特征向量经过第一全连接层降维得到特征维度为768的降维后的视觉特征向量,将P
i
中的相对位置向量经过第二全连接层升维得到特征维度为768的升维后的相对位置向量,将每个降维后的视觉特征向量与对应的升维后的相对位置向量进行逐位相加并求相加的两个元素的平均值,将所得结果按序排列形成融合后的图像特征向量,再将所有融合后的图像特征向量按序排列形成融合后的图像特征向量集Z
i
,Z
i
={z1,

,z
i'
,

,z
M
},其中,z
i'
表示与第i'个目标对应的融合后的图像特征向量;步骤4):将Z
i
通过第三全连接层得到输出向量L
i
,根据L
i
获取第i个图像样本的最终特征向量f
i
,f
i
=AvgPool(G
i
),其中,AvgPool(G
i
)表示对G
i
进行平均池...

【专利技术属性】
技术研发人员:钱江波彭良康钱承武宁轩
申请(专利权)人:宁波大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1