当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于深度哈希的类别失衡图像分层检索方法技术

技术编号:35000050 阅读:18 留言:0更新日期:2022-09-21 14:49
本发明专利技术涉及一种基于深度哈希的类别失衡图像分层检索方法,包括:S1、获取训练数据集输入到网络模型的特征提取模块,经多个卷积层处理后得到图像的高维特征向量;S2、高维特征向量输入到网络模型的隐含层,隐含层根据高维特征向量来学习图像的特征表示,同时输出图像对应的近似哈希码;S3、近似哈希码经激活函数与量化处理后形成离散的二进制串,作为最终哈希码输入到隐含层的分类层中,分类层通过二次检索方法计算出图库中对应的图像,完成分类模型的训练;S4、将待检索图像输入到完成训练的分类模型中,输出待检索图像在图库中对应的图像。与现有技术相比,本发明专利技术具有提高图像检索精度,减少模型参数量,使模型移植、存储更为方便等优点。便等优点。便等优点。

【技术实现步骤摘要】
一种基于深度哈希的类别失衡图像分层检索方法


[0001]本专利技术涉及图像识别
,尤其是涉及一种基于深度哈希的类别失衡图像分层检索方法。

技术介绍

[0002]二十一世纪,世界进入“互联网时代”,互联网的发展给人类生活提供了巨大的便利,各类社交软件和电商平台的出现,让人们不出家门便可实现与亲朋好友分享所见所景和购遍全球好物的愿望。这些软件的快速发展也使得互联网上相关图像、视频的数据量飞速增加。据有关资料显示,全球用户每天在社交平台上上传的图片量接近10亿张,而线上购物平台内更是存储有286亿多张图片。在这种情况下,如何使得每个用户都能从大规模图像数据中快速找到想要的图像变成了一个亟待解决的难题,该问题的解决方案就是使用图像检索技术。
[0003]图像检索技术的主要流程首先需要找到图像的一种可量化的表达方式,然后利用一种距离度量方式将待检索图像与图像库中的图像进行一一对比,求得它们之间的相似性度量,然后根据度量结果进行排序并输出对应的图像,即获得图像检索的结果。在图像检索技术发展的早期,主要使用基于文本的图像检索方法(Text

Based Image Retrieval,TBIR),主要思想是先将图像的内容用文字来表示,即人为对图像进行标注,接下来的图像检索过程其实就是对标注内容进行匹配的过程,根据搜索的内容找到匹配的图像标注后,再根据标注找到其对应的图像数据。这种方式操作简单、检索效率高,但是在图像数据规模急剧增大的情况下,对图像进行标注极其耗费人力、物力,并且图像标注的内容受人的主观意识所控制,不同人可能对相同的图像有不同的看法。所以基于内容的图像检索方法(Content

Based Image Retrieval,CBIR)逐渐取代了基于文本的图像检索方法。该方法首先得到图像的特征表示,然后通过比较特征之间的相似性进行图像检索操作,这种使用内容检索的方法形象化的描述就是“以图搜图”的过程,这种方法如今广泛应用于搜索引擎、电商平台等场景。
[0004]图像检索技术不仅仅只适用于以上的场景,它在其他很多方面都有着重要的作用:1)公安、刑侦领域:可以进行嫌疑人照片的比对、指纹检索等;2)智慧医疗领域:疾病早期自检系统、辅助医生诊断、相似病例查询等;3)交通管理:车辆检索识别、车辆追踪等。
[0005]但是因为图片质量增高和数量增多等原因,图像特征向量维度越来越高,数量也越来越多,导致基于内容的图像检索速度快速下降,占用空间也快速增加,被称为“维度灾难”。为了解决以上问题,基于哈希的检索方法被提出,它可以将图像的高维特征向量通过哈希函数映射为低维的二进制串,利用这种哈希码进行图像检索可以加快速度并节省空间。
[0006]近年来,计算机GPU计算能力的快速增长推动着深度学习技术的发展,特别是2012年AlexNet出现之后,深度学习技术在计算机视觉领域包括图像分类、目标检测、图像分割等任务处理上都产生了突破性的进展。研究人员也将其用在了图像检索任务上,结合深度
学习和哈希编码技术提出基于深度哈希的图像检索方法,产生了非常好的效果,既提高了检索精度又加快了检索速度。
[0007]综合以上内容,图像检索技术在当今具有广阔的应用场景和研究价值。结合哈希编码、深度学习技术的基于深度哈希的图像检索方法更能充分利用大数据资源实现精度高、速度快、占用空间少的目标,加速人工智能应用从理论到落地的过程,为人们生活提供便利。

技术实现思路

[0008]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度哈希的类别失衡图像分层检索方法,在保证检索精度的情况下通过使用轻量化网络和去掉全连接层的方法尽可能的减少模型参数量,使模型移植、存储更为方便。
[0009]本专利技术的目的可以通过以下技术方案来实现:
[0010]一种基于深度哈希的类别失衡图像分层检索方法,具体包括以下步骤:
[0011]S1、获取训练数据集输入到网络模型的特征提取模块,经多个卷积层处理后得到图像的高维特征向量;
[0012]S2、高维特征向量输入到网络模型的隐含层,隐含层根据高维特征向量来学习图像的特征表示,同时输出图像对应的近似哈希码;
[0013]S3、近似哈希码经激活函数与量化处理后形成离散的二进制串,作为最终哈希码输入到隐含层的分类层中,分类层通过二次检索方法计算出图库中对应的图像,完成分类模型的训练;
[0014]S4、将待检索图像输入到完成训练的分类模型中,输出待检索图像在图库中对应的图像。
[0015]所述隐含层的作用是利用神经网络得到的特征向量生成图像对应的哈希码,同时指导生成最终图像分类的预测结果。一般使用全连接层作为隐含层,但是有研究表明一般网络在全连接层上的参数量可以占到整个网络参数量的80%以上,并且因为隐含层中每个结点值都是由上层特征向量中所有结点的值经过线性变换得来的,易出现过拟合的现象。
[0016]所述隐含层的结构具体为采用1*1卷积核和全局平均池化操作,或采用分块全连接层的结构处理冗余信息。
[0017]进一步地,所述1*1卷积核实现不同特征图中同一位置的信息融合,同时实现通道的升、降维,通过1*1卷积核对高维特征向量进行降维操作,同时增加感受域,提取主要特征。
[0018]进一步地,所述全局平均池化操作对特征图进行压缩,将生成的特征图内数据取均值作为输出,通过将特征图展开进行线性变换生成分类结果的过程简化为直接求平均值,减少了网络参数,并且相当于对网络做正则化以防止出现过拟合的现象。
[0019]所述分块全连接层对于已经展开的高维特征向量,通过全连接层操作输出q维的向量作为哈希码或是分类结果。假设输入层有p个结点,输出层有q个结点,如果p=q
×
n+s,其中0<s<n,则前s个全连接层片段有n+1个结点,剩余的片段有n个结点。
[0020]进一步地,所述分块全连接层对高维特征向量的处理过程具体为将高维特征向量分为多个特征片段,每个特征片段通过一个从n到1的全连接层生成输出结点,公式如下所
示:
[0021]fc
i
(x
(i)
)=W
i
x
(i)
[0022]其中,x
(i)
为特征片段,W
i
为对应的参数矩阵,fc
i
为输出结点的特征值。
[0023]所述步骤S3中计算最终哈希码的公式如下所示:
[0024][0025][0026]其中,为最终哈希码对应的二进制串,σ为Tanh激活函数,f(x)为近似哈希码,W
h
和b
h
为过程参数,通过Tanh激活函数将近似哈希码的值映射到[

1,+1]的范围内,然后将[

1,+1]n
的连续值变成离散的二进制串,形如{0,1}
n
,得到图像对应的最终哈希码,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度哈希的类别失衡图像分层检索方法,其特征在于,具体包括以下步骤:S1、获取训练数据集输入到网络模型的特征提取模块,经多个卷积层处理后得到图像的高维特征向量;S2、高维特征向量输入到网络模型的隐含层,隐含层根据高维特征向量来学习图像的特征表示,同时输出图像对应的近似哈希码;S3、近似哈希码经激活函数与量化处理后形成离散的二进制串,作为最终哈希码输入到隐含层的分类层中,分类层通过二次检索方法计算出图库中对应的图像,完成分类模型的训练;S4、将待检索图像输入到完成训练的分类模型中,输出待检索图像在图库中对应的图像。2.根据权利要求1所述的一种基于深度哈希的类别失衡图像分层检索方法,其特征在于,所述隐含层的结构具体为采用1*1卷积核和全局平均池化操作,或采用分块全连接层的结构。3.根据权利要求2所述的一种基于深度哈希的类别失衡图像分层检索方法,其特征在于,所述1*1卷积核对高维特征向量进行降维操作,全局平均池化操作对特征图进行压缩,将生成的特征图内数据取均值作为输出。4.根据权利要求2所述的一种基于深度哈希的类别失衡图像分层检索方法,其特征在于,所述分块全连接层对高维特征向量的处理过程具体为将高维特征向量分为多个特征片段,每个特征片段通过一个全连接层生成输出结点,公式如下:fc
i
(x
(i)
)=W
i
x
(i)
其中,x
(i)
为特征片段,W
i
为对应的参数矩阵,fc
i
为输出结点的特征值。5.根据权利要求1所述的一种基于深度哈希的类别失衡图像分层检索方法,其特征在于,所述步骤S3中计算最终哈希码的公式如下所示...

【专利技术属性】
技术研发人员:李冰赵生捷姚晗
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1