【技术实现步骤摘要】
一种多标签图像的哈希检索方法
[0001]本专利技术涉及一种哈希检索方法,尤其是一种多标签图像的哈希检索方法。
技术介绍
[0002]近些年深度神经网络取得了巨大的成功,一些哈希方法利用卷积神经网络学习到了有效的特征表示和哈希函数,相比传统手工特征的哈希方法拥有更好的性能,虽然深度哈希方法在图像检索方面取得了令人瞩目的进步,但哈希算法普遍存在以下不足: (1)现有的深度哈希方法通常将整个图像视为单个整体,即使用卷积神经网络一次性处理整个图像,这些方法对于单标签图像会比较有效,但是对于具有多项语义信息的多标签图像来说,这些方法没有充分挖掘图像中不同目标的独立特征,使模型可能只关注少数显著目标而忽略了其它具有重要信息的小目标,并且现有哈希算法没有利用图像中目标间的关系信息;(2)很多深度哈希方法在训练后无法完全保持原始空间中的相似度,即存在难以在海明空间中保持相似关系且训练后得不到显著提升的难训练样本对,现有的方法忽略了难训练样本对与易训练样本对的不平衡对于哈希网络的影响,导致难训练样本对得不到充分训练,无法使哈希码最优。
[0003]专利号为CN113436188A提出一种利用卷积计算图像哈希值的方法,该方法对单标签图像会比较有效,但是没有解决多标签图像中存在的问题。
技术实现思路
[0004]本专利技术所要解决的技术问题是提供一种检索准确率较高的多标签图像的哈希检索方法。
[0005]本专利技术解决上述技术问题所采用的技术方案为:一种多标签图像的哈希检索方法,包括以下步骤:
[ ...
【技术保护点】
【技术特征摘要】
1.一种多标签图像的哈希检索方法,其特征在于包括以下步骤:步骤1):在原始多标签图像数据库中存储的图像样本中选取N个图像样本并组成训练集X,X={x1,
…
,x
i
,
…
,x
N
},其中,x
i
表示X中第i个图像样本,1≤i≤N,将X中的每个图像样本对应的类别标签按序排列形成类别标签集Y,Y={y1,
…
,y
i
,
…
,y
N
},其中,y
i
表示x
i
对应的类别标签向量;步骤2):将X中的每个图像样本通过目标检测网络得到M个目标的视觉特征向量与每个目标的位置,将M个目标的视觉特征向量归入一个目标集V
i
,V
i
={v1,
…
,v
i'
,
…
,v
M
},其中,d
v
=2048,v
i'
表示第i'个目标的视觉特征向量,1≤i'≤M,定义M个目标所在的区域为目标区域,在目标区域内获取基准点坐标,该基准点坐标的横坐标为所有目标的左上角顶点的最小横坐标值,该基准点的纵坐标为所有目标的左上角顶点的最小纵坐标值,将每个目标的左上角顶点坐标减去基准点坐标得到左上相对坐标,将每个目标的右下角顶点坐标减去基准点坐标得到右下相对坐标,再以每个目标的左上相对坐标与右下相对坐标组成的向量作为该目标的相对位置向量,将所有目标的相对位置向量按序排列形成相对位置向量集P
i
,P
i
={p1,
…
,p
i'
,
…
,p
M
},其中,p
i'
表示第i'个目标的相对位置向量;步骤3):建立待训练的哈希检索模型,包括输入数据层、第一全连接层、第二全连接层、第三全连接层、哈希层和分类层,其中第一全连接层、第二全连接层和第三全连接层均采用RELU激活函数,将V
i
中的视觉特征向量经过第一全连接层降维得到特征维度为768的降维后的视觉特征向量,将P
i
中的相对位置向量经过第二全连接层升维得到特征维度为768的升维后的相对位置向量,将每个降维后的视觉特征向量与对应的升维后的相对位置向量进行逐位相加并求相加的两个元素的平均值,将所得结果按序排列形成融合后的图像特征向量,再将所有融合后的图像特征向量按序排列形成融合后的图像特征向量集Z
i
,Z
i
={z1,
…
,z
i'
,
…
,z
M
},其中,z
i'
表示与第i'个目标对应的融合后的图像特征向量;步骤4):将Z
i
通过第三全连接层得到输出向量L
i
,根据L
i
获取第i个图像样本的最终特征向量f
i
,f
i
=AvgPool(G
i
),其中,AvgPool(G
i
)表示对G
i
进行平均池...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。