一种基于循环神经网络的图像哈希码生成方法技术

技术编号:22330199 阅读:47 留言:0更新日期:2019-10-19 12:17
本发明专利技术公开了一种基于循环神经网络的图像哈希码生成方法,通过多实例学习提取图像的属性,并使用注意机制在该LSTM中利用和计算训练中的属性,以便在每个时间步骤关注图像/图像批次的不同属性。在提取之后,基于LSTM来近似每个时间步长之间的维数减少并且去相关,以便逐位地生成有意义的缩放矢量,然后,通过LSTM输出经过全连接层生成一个向量和图像特征图像特征通过另一个全连接层输出另个向量,二者点乘后,用三元组损失函数优化,得到图像哈希码。与仅从图像特征生成的哈希码相比,生成的哈希码的性能从深度特征和语义属性中获益更多。此外,特征和属性的融合使图像哈希码获得检索能力和可区分的语义含义。

An image hash code generation method based on recurrent neural network

【技术实现步骤摘要】
一种基于循环神经网络的图像哈希码生成方法
本专利技术属于图像检索
,更为具体地讲,涉及一种基于循环神经网络的图像哈希码生成方法。
技术介绍
由于近年来互联网上的数据在存储和类别方面都有快速增长的速度,人们自然会被鼓励寻求新的方法来快速有效地生成数据模式。基于内容的信息检索(CBIR)是一种专注于基于视觉内容查询和索引大型数据集的技术,是许多多媒体应用的关键,包括人脸识别,动作检测等。哈希学习尤其是大数据哈希学习是根据基于内容的信息检索思路形成的一种重要方法。哈希学习的原理是基于近似最近邻(ANN)搜索,生成尽可能保留数据空间结构的由1/-1组成的哈希码。从局部敏感哈希(LSH)到现在的一系列新方法,证明了哈希学习是一种前景良好的检索技术。仅将生成的图像特征用于深度学习并不是唯一的解决方案。通常,对目标哈希函数生成的二进制代码施加的离散约束将导致在网络中的梯度下降出现困难,这些问题通常是NP难的。为了简化二进制代码学习过程中涉及的优化,大多数上述方法选择首先通过丢弃离散约束来解决松弛问题,然后求解出一个连续解以实现近似二元解。这种放松方案极大地简化了原始的离散优化。遗憾的是,这种近似解决方案通常具有低质量并且经常使得所得到的散列函数可能由于累积的量化误差而不太有效,这在学习较长长度的哈希码时尤其如此。另一方面,当尝试将深度学习调整为哈希学习任务时,其与深度学习的集成是一个至关重要的问题。最近的进展证明了卷积神经网络(CNN)在图像分类,物体检测,人脸识别和许多其他视觉任务中的不同变化的令人印象深刻的学习能力。CNN在各种任务中的成功应用表明,CNN学到的特征可以很好地捕捉图像的基本语义结构,尽管存在显着的外观变化。一些深度哈希方法,如,试图通过卷积神经网络计算学习哈希码之间的汉明距离,方法是使用神经网络对代价函数优化,计算两个数据点之间的相似性。在一些利用循环神经网络对视频进行哈希码生成的工作中,LSTM的循环性质被用作时间视频帧的编码器,并通过最后一步输出计算哈希码,这是通过单个完全连接的激活层计算的隐藏状态。实验结果表明,调整得到了提升。然而,仍然部分地发现了用于训练哈希码的深度神经网络的强度的性质。例如,对于循环神经网络,我们可以延长哈希码学习的学习周期,并使神经网络调整已经学习的哈希码。传统的以图像检索深度哈希学习即图像检索哈希码生成方法只使用图像特征进行哈希学习,如2017年08月04日公布的、公布号为CN107016708A、名称为“一种基于深度学习的图像哈希码编码方法”专利技术专利申请,其基本流程如图1所示。图1中,图像数据集的图像在由卷积神经网络(CNN)提取图像特征,通过最后一层网络进行微调(finetune)训练,优化损失函数,生成可用的哈希码。然而,现有的图像检索哈希码生成方法,生成的图像检索哈希码不能很好地与图像匹配,误差较大,并且不同属性之间的图像,差异(偏差)不是很强烈,性能不高。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于循环神经网络的图像哈希码生成方法,以减少与图像匹配的误差(提高检索能力),加强不同属性图像哈希码的差异(可区分性),提高生成的图像哈希码的性能。为实现上述专利技术目的,本专利技术基于循环神经网络的图像哈希码生成方法,其特征在于,包括以下步骤:(1)、利用卷积神经网络(CNN)提取图像的特征(图像特征),采用多实例学习(MIL)提取图像的属性(图像属性):在VGG-16网络上应用MIL机制,用一个改变VGG-16的fc8层的原始计算sigmoid激活层通过预测边界来计算边界框中(boundingbox)的损失函数,边界框通过词袋(bagofwords)模型训练语料库,使用MIL的组合OR版本,可以表示为:其中,p(bi|w)是包含在词袋w中的单词bi出现(在该张图片中)的总概率,由一个属性向量表示,表示给定的图像i中的图像区域j中出现词袋w的概率;(2)、将图像特征经过初始化即全连接层降为n维后,与属性向量作为注意机制(attentionmechanism)中的上下文向量(contextvector)继续处理后的向量进行融合,得到融合特征向量xt,t=0,1,...,n-1,n为融合特征向量的数量;(3)、将融合特征向量xt依次输入到长短期记忆网络(LSTM,LongShort-TermMemory)中,计算出隐藏量ht,t=0,1,...,n-1;(4)、将长短期记忆网络每一次计算出的隐藏量ht,t=0,1,...,n-1收集并经过全连接层运算(即为生成起到缩放作用的向量)生成向量fca,同时,CNN提取出的图像特征过另一个全连接层运算生成向量fcb,两个生成的向量fca、fcb点乘后,三元组损失函数进行优化,最终得到图像哈希码。本专利技术的目的是这样实现的。本专利技术基于循环神经网络的图像哈希码生成方法,在现有图像检索哈希码生成方法的基础上,通过多实例学习提取图像的属性,并使用注意机制(attentionmechanism)在该LSTM中利用和计算训练中的属性,以便在每个时间步骤关注图像/图像批次的不同属性。在提取之后,基于LSTM设计了一种新的循环神经网络来近似每个时间步长之间的维数减少并且去相关,以便逐位地生成有意义的缩放矢量,然后,通过LSTM输出经过全连接层生成一个向量和图像特征图像特征通过另一个全连接层输出另个向量,二者点乘后,用三元组损失函数优化,得到图像哈希码。与仅从图像特征生成的哈希码相比,生成的哈希码的性能从深度特征和语义属性中获益更多。此外,特征和属性的融合使图像哈希码获得检索能力和可区分的语义含义。附图说明图1是现有技术中图像检索哈希码生成方法的示意图;图2是本专利技术基于循环神经网络的图像哈希码生成方法一种具体实施方式的流程图;图3是本专利技术基于循环神经网络的图像哈希码生成方法一种具体实施方式的架构图;图4是图像哈希码在高层语义空间的分布示意图。具体实施方式下面结合附图对本专利技术的具体实施方式进行描述,以便本领域的技术人员更好地理解本专利技术。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本专利技术的主要内容时,这些描述在这里将被忽略。本专利技术提出了一种新的基于循环神经网络的图像哈希码生成方法来调整深度学习过程中的逐位学习阶段,名为深度循环缩放哈希学习DeepRecurrentScalingHashing(DRSH)。本专利技术在哈希学习过程中产生缩放矢量,以提高从图像特征生成的图像哈希码的性能。本专利技术包括以下步骤:首先,通过深度神经网络(CNN、MIL)提取图像的特征和属性。使用注意机制(attentionmechanism)在长短期记忆网络(LSTM)中利用和计算训练中的属性,以便在每个时间步骤关注图像/图像批次的不同属性。在提取之后,基于LSTM设计了一种新的循环神经网络来近似每个时间步长之间的维数减少并且去相关,以便逐位地生成有意义的缩放矢量,然后,通过LSTM的输出和图像特征的组合生成图像的哈希码。与仅从图像特征生成的图像哈希码相比,生成的图像哈希码的性能从深度特征和语义属性中获益更多。此外,特征和属性的融合使图像哈希码获得检索能力和可区分的语义含义,具体而言,如图2、3所示,本专利技术基于循环神经网络的图本文档来自技高网
...

【技术保护点】
1.一种基于循环神经网络的图像哈希码生成方法,其特征在于,包括以下步骤:(1)、利用卷积神经网络(CNN)提取图像的特征(图像特征),采用多实例学习(MIL)提取图像的属性(图像属性):在VGG‑16网络上应用MIL机制,用一个改变VGG‑16的fc8层的原始计算sigmoid激活层通过预测边界来计算边界框中(bounding box)的误差函数,边界框通过词袋(bag of words)模型训练语料库,使用MIL的组合OR版本,可以表示为:

【技术特征摘要】
1.一种基于循环神经网络的图像哈希码生成方法,其特征在于,包括以下步骤:(1)、利用卷积神经网络(CNN)提取图像的特征(图像特征),采用多实例学习(MIL)提取图像的属性(图像属性):在VGG-16网络上应用MIL机制,用一个改变VGG-16的fc8层的原始计算sigmoid激活层通过预测边界来计算边界框中(boundingbox)的误差函数,边界框通过词袋(bagofwords)模型训练语料库,使用MIL的组合OR版本,可以表示为:其中,p(bi|w)是包含在词袋w中的单词bi出现(在该张图片中)的总概率,由一个属性向量表示,表示给定的图像i中的图像区域j中出现词袋w的概率;(2)、将图像特征经过初始化即全连接层降为n维后,与属性向量作为注意机制(attentionmechanism)中的上下文向量(contextvector)继续处理后的向量进行融合,得到融合特征向量xt,t=0,1,...,n-1,n为融合特征向量的数量;(3)、将融合特征向量xt依次输入到长短期记忆网络(LSTM,LongShort-Te...

【专利技术属性】
技术研发人员:杨阳汪政傅熙尧
申请(专利权)人:成都澳海川科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1