当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于可变长深度哈希学习的图像检索方法技术

技术编号:14572432 阅读:233 留言:0更新日期:2017-02-06 09:22
本发明专利技术公开一种基于可变长度深度哈希学习的图像检索方法,主要涉及图像检索与深度学习领域。该方法将哈希码的学习建模成相似性学习的过程。具体来说,该方法利用训练图像产生一批三元图像组,其中每个三元组包含两张具有相同类标的图像与一张具有不同类标的图像。对模型训练的目的是最大化匹配的图像对与不匹配的图像对在海明空间的间隔。本方法的学习部分引入了深度卷积神经网络,通过对图像特征与哈希函数的联合优化,实现了端到端的训练过程。另一方面,卷积网络输出的哈希码每一位都具有不同的权重。针对不同的检索任务,用户可以通过截断不重要的比特位来实现哈希码长度的调控。同时,该方法能够在哈希码较短的情况下的有效地保持其判别性。

【技术实现步骤摘要】

本专利技术涉及图像检索领域与深度学习领域,更具体的,涉及一种基于可变长深度哈希学习的图像检索方法
技术介绍
随着互联网飞速发展,以图像和视频为载体的多媒信息的数量也呈现爆炸性增长。如何才能从海量的数据中获取自己想要信息,成为工业界和学术界广泛讨论的内容。哈希技术凭借在存储空间和计算效率两个方面的巨大优势,受到了广泛的关注与研究。随着研究的不断深入,基于图像内容的哈希学习侧重将图像转化成为二进制编码后仍然能够有效保持其与其他图像的语义相关性。为了解决以上问题,多篇基于机器学习的哈希学习算法被提出。其中,一类基于有监督的图像哈希学习算法表现出了更为良好的效果,有着更加巨大的潜力。一般来说,有监督框架下的图像哈希学习有两个主要部分构成,首先,图像将被手工设计的特征描述子表达成特征向量的形式,这一步的目的是为了在图像存在噪声或者其他冗余信息的情况下提取出图像的语义信息;其次是将哈希的学习过程表达成一个图像之间距离的优化问题,以此在学习到的海明空间中保持图像的语义一致性。但是大多数的学习方法将以上两个过程拆分开进行处理,这样就使得图像的特征表达无法在特征的学习过程中进行优化。同时,通过手工设计图像的特征需要大量的领域知识,很难有效适应不同的应用任务。近几年,一种名为多层自动编码器的模型被提出,该模型可以直接从原图像中得到图像特征并进一步转化为二进制编码。但由于其复杂的优化过程使得其在实际应用中受到很大限制。另一方面,现有大多数的哈希学习算法生成的哈希编码是固定长度的。但是在实际的应用场景中,却需要根据任务的不同选取不同的编码长度。例如,对于计算资源较少的设备,较短的哈希编码具有更为明显的计算优势。但是对于查准率较高的任务,选择较长的哈希编码的可能性相对较大。为了解决以上问题,一个较为直接的方案是存储不同比特长度的哈希编码,但是这样对学习时间和存储空间都有较大的浪费。因此有若干长度可变的哈希学习算法被先后提出。该类方法根据重要性的大小一位一位的产生哈希码,重要性较大的比特位率先产生。因此用户可以根据需要,从头至尾选取所期望的哈希编码长度。但是这类方法通常都与精心设计的特征空间紧密相连,同时其检索准确性也会随着哈希码位数的减少出现急剧的下跌。
技术实现思路
为了克服现有技术的不足,本专利技术提出一种基于可变长深度哈希学习的图像检索方法,该方法通过最大化匹配的图像对与不匹配的图像对在海明空间的间隔,来语义相似图像的特征一致性。通过对现有深度卷积神经网络的改进,实现了端到端的模型结构,从而能够从原始的输入图像直接获得相对应的哈希编码。最后,该方法在训练的过程中对每一个哈希比特位引入了权重,进而能够通多权重对哈希码的长度进行截取,使得哈希编码具备了长度可变性。从而实现了在一次训练的情况下,模型能够针对不同应用场景选取不同长度哈希编码进行减检索的目的。为了实现上述目的,本专利技术的技术方案为:一种基于可变长深度哈希学习的图像检索方法,包括以下步骤:S1.预处理:将训练图像集合划分成一批三元图像组;S2.训练阶段,图像哈希码的生成:将三元图像组输入到深度卷积神经网络中,通过网络的变换直接输出与图像对应的哈希码;S3.训练阶段,深度神经网络参数的优化:计算每张图像产生的损失,并通过反向传播算法来训练深度卷积神经网络;S4.测试阶段,图像相似性的计算:根据用户的输入,截断不重要的哈希比特位,并且计算查询图像与数据库每张图像之间的带权重海明距离;S5.测试阶段,返回查询结果:根据步骤S4中的带权重的海明距离,从大到小对数据库图像进行排序,排序结果即为返回的相似性检索结果。本专利技术通过训练图像集合产生一系列的三元组,利用图像三元组来最大化匹配的图像对与不匹配的图像对在海明空间的间隔,进而有效地挖掘了训练图像类内的一致性和类间的差异性,解决了具有相同语义信息的图片在海明空间相似性保持的问题。优选的,所述步骤S1中将训练集合划分成一批三元图像组,具体方法为:从训练数据集中随机抽取若干张图像作为中心图像。在确定中心图像的基础上,选取一张与中心图像具有相同类别标签的图像与一张具有不同类别标签的图像,从而形成若干图像三元组。本专利技术的特点在于学习部分引入了深度卷积神经网络,通过对图像特征与哈希函数的联合优化,实现了端到端的训练过程。从而可以利用卷积神经网络直接从原始图像提取哈希码。省去了传统方法中手动设计特征的环节。其中深度神经网络的训练过程则是通过累加每张图像所产生的损失作为总的损失,进而利用反向传播算法对网络中的参数进行更新。优选的,步骤S2中的深度卷积神经网络包含以下组成部分:若干卷积层和池化层,部分全连接层,一个类双曲正切函数层以及一个哈希权重层。其中倒数第二个全连接层的输出表示了图片的特征向量。倒数第一个全连接层中的参数代表了哈希函数的参数。类双曲正切函数层是一个以特征向量为输入的,每个维度的取值范围在[-1,1]之间的类双曲正切函数,其中函数有一个调和参数用于控制其平滑性。该参数越小,函数越平滑。哈希权重层是一个以类双曲正切函数层输出为输入的,每个维度对应一个权重的深度网络层。优选的,步骤S3中的深度卷积神经网络参数学习的具体实现方式为:以图像为中心来计算所产生损失,计算某图像在所有三元组中出现的损失,并将其累计求和,获得最终的图像损失。具体的,对于确定的某张图像,首先确定其在三元组中的具体存在形式(作为中心图像、作为正样本、作为负样本或是根本不在三元组中)。随后根据具体的存在形式计算其相应的损失,若图像不存在于某三元组中,则计图像在该三元组中产生的损失为零。累加图像在所有三元组中不同存在形式下的损失,获得最终该图像的损失。每次在进行深度卷积神经网络参数更新的时候则是将一批图像一次载入,利用这些图像随机产生若干三元组。统计这一批图像在这个三元组集合上的损失。利用反向传播算法(backpropagationalgorithm)对深度卷积神经网络参数进行更新。本专利技术的优势在于针对不同查询任务,用户可以根据实际需要对哈希码的长度进行选择,进而算法根据每个哈希比特位的权重对哈希码进行截断,实现了哈希编码的长度可变性。本专利技术有效地解决了一次训练,多任务可用的目标。在计算资源、存储空间有限的情况下,本方法依旧能够在哈希编码较短的情况下,保持其判别性。优选的,步骤S4中的图像相似性计算的具体实现方式为:获取确定长度的哈希编码,根据用户的输入,确定要本文档来自技高网
...

【技术保护点】
一种基于可变长深度哈希学习的图像检索方法,其特征在于,包括:S1.将训练图像集合划分成一批三元图像组;S2.将三元图像组输入到深度卷积神经网络中;S3.计算每张图像产生的损失,并通过反向传播算法来训练深度卷积神经网络;S4.根据用户的输入,截断不重要的哈希比特位,并且计算查询图像与数据库每张图像之间的带权重海明距离;S5.根据步骤S4中的带权重的海明距离,从小到大对数据库图像进行排序,排序结果即为返回的相似性检索结果。

【技术特征摘要】
1.一种基于可变长深度哈希学习的图像检索方法,其特征在于,包括:
S1.将训练图像集合划分成一批三元图像组;
S2.将三元图像组输入到深度卷积神经网络中;
S3.计算每张图像产生的损失,并通过反向传播算法来训练深度卷积神经网
络;
S4.根据用户的输入,截断不重要的哈希比特位,并且计算查询图像与数据
库每张图像之间的带权重海明距离;
S5.根据步骤S4中的带权重的海明距离,从小到大对数据库图像进行排序,
排序结果即为返回的相似性检索结果。
2.根据权利要求1所述的基于可变长深度哈希学习的图像检索方法,其特
征在于,所述步骤S1中所述的三元图像组具体包括两张具有相同类别标签的图
像与一张具有不同类别标签的图像。
3.根据权利要求1所述的基于可变长深度哈希学习的图像检索方法,其特
征在于,所述步骤S2中的深度卷积神经网络包含若干卷积层和池化层,部分全
连接层,一个类双曲正切函数层以及一个哈希权重层;
所述的类...

【专利技术属性】
技术研发人员:林倞张瑞茂王青江波
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1