一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法技术

技术编号:19857888 阅读:38 留言:0更新日期:2018-12-22 11:47
本发明专利技术提供了一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法,基于分类任务可以提高哈希码的判别性及聚合性和检索任务可以保留哈希码的语义相似性,将分类任务与检索任务融入只有一个输出的单流(one‑stream)框架里,充分利用语义监督信息,以提高哈希码的紧致性、判别性及保留哈希码的语义相似性;本发明专利技术方案构建了单流(one‑stream)网络框架,结合多任务学习的方法,提高了哈希检索性能。

【技术实现步骤摘要】
一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法
本专利技术涉及一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法,涉及图像检索领域。
技术介绍
互联网及移动终端设备的普及带来了多媒体数据(图像、文本、语音及视频等)的快速增长。面对如此大规模的数据,如何有效地存储、分析和管理这些数据成为了极具挑战的问题。如何设计一种可以用于大尺度图像语义检索任务的高效检索算法成为了一个热门的研究问题。在检索任务中,传统的实值描述符如词袋(BoW)、颜色直方图、空间描述符(GIST)等等需要消耗大量的内存及计算资源。为了解决基于实值的大规模图像检索问题,提出了一些基于树的方法,例如kd-tree和R-tree。然而,因为维度灾难的存在,相似性检索效率随着数据维度的增加而减少。为了减少维度灾难的影响,一些早期的数据独立哈希方法如局部敏感性哈希(LSH)采用随机线性投影的方法将高维空间的实值描述符投影到低维的哈明空间。这类哈希方法的主要缺陷是在短的码长检索性能不能令人满意。为了学习更加有效和紧致的哈希码,一些研究者通过机器学习的方法设计了一些数据独立的哈希方法学习哈希函数。现有的数据独立的哈希方法可以大致分成两种:无监督的哈希方法和有监督的哈希方法。无监督的哈希方法利用样本的内在数据特性而没有利用任何标签信息学习二值码。其中代表性的哈希方法包括谱哈希(SH)、迭代量化(ITQ)、各项异性哈希(IsoH)、锚点图哈希(AGH)等等。这类方法的缺点是在实际应用中很难取得满意的检索性能。为了提升哈希的性能,监督的哈希方法将标签信息引入学习模型。代表性的监督哈希方法包括核监督哈希(KSH)、监督离散哈希(SDH),深度成对监督哈希(DPSH)、深度语义排序哈希(DSRH)、深度三元监督哈希(DTSH)、深度监督离散哈希(DSDH)等等。最近,基于深度学习的哈希方法:DPSH、DSRH、DTSH和DSDH展示了比传统的哈希方法SH、ITQ、IsoH、AGH、KSH和SDH更好的性能。主要是因为深度的哈希方法可以以一种端对端的框架同时执行特征学习和哈希码的学习。而传统的哈希方法分离了这两个过程,导致学习到的哈希码不能与提取的特征最优的兼容。尽管这些深度的哈希方法取得了较好的性能,但是这些方法要么设法在只有一个输出单流(one-stream)框架里解决单个检索任务(DPSH和DTSH),要么在有两个输出的双流(two-stream)框架里联合解决检索任务和分类任务(DSRH)。前者利用成对的约束或者三元的约束生成相似性保留的哈希码。然而,数据以类别标签形式(特别是当数据具有多个语义标签)的基本语义结构被忽略了。后者构建了一个哈希流用于相似性保留以及一个分类流用于语义保留。然后,分类流不是直接引导哈希函数的学习而是引导图像表示的学习。结果是现有的深度学习方法中的语义信息并没有充分用于生成紧致及判别性的哈希码。
技术实现思路
本专利技术提供一种哈希检索性能更高的,基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法,提高了哈希码的紧致性、判别性及保留哈希码的语义相似性。根据本专利技术提供的一种基于多任务学习深度语义哈希的快速图像检索模型构建方法,具体方法包括,S1,收集大量的训练图片,并进行图片类别标注;调整所有图片的大小到一个固定尺寸;将整个数据库随机划分成三个集合:查询集、数据库集和训练集。S2:构建一个哈希学习网络,对所构建的哈希学习网络进行参数初始化;在哈希学习网络的最后添加损失层。网络的损失函数J定义如下:J=NJcl+λJre其中N代表训练集图像的总数,λ表示超参数以平衡用于分类任务的COCO损失Jcl及检索任务的成对损失Jre;对于单标签情形,采用下面的损失函数形式用于分类任务哈希码的学习:其中ui表示网络最后一层经过tanh(·)激活函数的输出Y表示训练样本的标签矩阵,L表示类别数目,ck表示第k类的中心;对于多标签情形,采用下面的损失函数形式用于分类任务哈希码的学习:其中C=[c1,c2,…,cL]表示在单标签情形下的原类别中心,表示给定的第i张图片的新的语义中心;针对检索任务,采用下面的成对损失形式:其中S∈{-1,1}N×N表示相似性矩阵,表示两张图片的汉明相似性;S3,将训练图片的RGB三个通道分别减去一个恒定的值作归一化处理;将归一化后的图片输入网络,经过最后tanh(·)激活函数的输出得到近似二值码的特征表示其中K表示哈希码的码长;对于单标签情形,计算损失函数对ui的偏导数其中对于多标签情形,计算损失函数对ui的偏导数其中利用反向传播算法,求得损失函数对网络参数Θ的偏导数;网络参数的更新使用梯度下降算法;对于语义中心的更新,分成单标签情形与多标签情形两种情况进行讨论;对于单标签情形,语义中心C=[c1,c2,…,cL]的更新,写成如下闭式解形式:对于多标签情形,语义中心C=[c1,c2,…,cL],可以采用如下加权平均的方式:S4,网络模型训练完成后,将数据库集图片按照S3归一化后输入训练好的哈希网络;将哈希网络最后的损失层替换成逐元素的sign(·)函数层,输出最终数据库图像的哈希码:bd=sign(F(xd;Θ))=sign(ud)利用训练集作为查询图片,计算查询的平均精度;按照交叉验证的原则,调整学习率、超参数λ的数值;按照调整后的参数,重复S2和S3对哈希网络进行重新训练。所述方法还包括,将查询集图片按照S3归一化后,输入经过参数调优后的哈希网络,得到查询集图像的哈希码;计算查询的平均精度。一种基于多任务学习深度语义哈希的快速图像检索模型,在上述图像检索模型构建方法上构建实现,包括,图像检索输入接口,接收要进行检索的图片;检索图像归一化处理模块,将检索图像的RGB三个通道分别减去设定的恒定的值作归一化处理;深度语义称哈希处理,对归一化处理后的图像进行深度语义称哈希处理,得到图像的哈希码。一种基于多任务学习深度语义哈希的快速图像检索方法,在上述图像检索模型的基础上实现,包括,输入要检索的图片,将检索图像的RGB三个通道分别减去设定的恒定的值作归一化处理;对归一化处理后的图像进行深度语义哈希处理,得到图像的哈希码。与现有技术相比,考虑到分类任务可以提高哈希码的判别性及聚合性和检索任务可以保留哈希码的语义相似性,将分类任务与检索任务融入只有一个输出的单流(one-stream)框架里,充分利用语义监督信息,以提高哈希码的紧致性、判别性及保留哈希码的语义相似性;本专利技术方案构建了单流(one-stream)网络框架,结合多任务学习的方法,提高了哈希检索性能。附图说明图1为本专利技术其中一实施例的图像检索流程示意图。图2到图4为本专利技术一实施例的利用t-SNE可视化方法将CIFAR-10测试集图片经过MLDH-R,MLDH-C和本专利技术方案模型输出的实值特征投影到二维空间的结果。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。本说明书(包括摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换。即,除非特别叙述本文档来自技高网
...

【技术保护点】
1.一种基于多任务学习深度语义哈希的快速图像检索模型构建方法,具体方法包括,S1,收集大量的训练图片,并进行图片类别标注;调整所有图片的大小到一个固定尺寸;将整个数据库随机划分成三个集合:查询集、数据库集和训练集。S2:构建一个哈希学习网络,对所构建的哈希学习网络进行参数初始化;在哈希学习网络的最后添加损失层。网络的损失函数J定义如下:J=NJcl+λJre其中N代表训练集图像的总数,λ表示超参数以平衡用于分类任务的COCO损失Jcl及检索任务的成对损失Jre;对于单标签情形,采用下面的损失函数形式用于分类任务哈希码的学习:

【技术特征摘要】
1.一种基于多任务学习深度语义哈希的快速图像检索模型构建方法,具体方法包括,S1,收集大量的训练图片,并进行图片类别标注;调整所有图片的大小到一个固定尺寸;将整个数据库随机划分成三个集合:查询集、数据库集和训练集。S2:构建一个哈希学习网络,对所构建的哈希学习网络进行参数初始化;在哈希学习网络的最后添加损失层。网络的损失函数J定义如下:J=NJcl+λJre其中N代表训练集图像的总数,λ表示超参数以平衡用于分类任务的COCO损失Jcl及检索任务的成对损失Jre;对于单标签情形,采用下面的损失函数形式用于分类任务哈希码的学习:其中ui表示网络最后一层经过tanh(·)激活函数的输出Y表示训练样本的标签矩阵,L表示类别数目,ck表示第k类的中心;对于多标签情形,采用下面的损失函数形式用于分类任务哈希码的学习:其中C=[c1,c2,…,cL]表示在单标签情形下的原类别中心,表示给定的第i张图片的新的语义中心;针对检索任务,采用下面的成对损失形式:其中S∈{-1,1}N×N表示相似性矩阵,表示两张图片的汉明相似性;S3,将训练图片的RGB三个通道分别减去一个恒定的值作归一化处理;将归一化后的图片输入网络,经过最后tanh(·)激活函数的输出得到近似二值码的特征表示其中K表示哈希码的码长;对于单标签情形,计算损失函数对ui的偏导数其中对于多标签情形,计算损失函数对ui的偏导数其中利用反向传播算法,求得损失函数对网络参数Θ的偏导数;网络参数的更新使用梯度下降算法;对于语义中心的更新,分成...

【专利技术属性】
技术研发人员:李宏亮马雷
申请(专利权)人:成都快眼科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1