基于卷积神经网络和监督核哈希的目标检索方法技术

技术编号:18497413 阅读:39 留言:0更新日期:2018-07-21 20:20
本发明专利技术涉及检索方法领域,尤其是基于卷积神经网络和监督核哈希的目标检索方法。该检索方法包括:(1)引入卷积神经网络对训练图像进行学习,利用其特殊网络结构隐式地学习得到图像数据的高阶表示,生成深层特征;(2)引入增强对线性不可分数据的分辨力的监督核哈希方法,同时利用哈希码内积与汉明距离的等价关系提出目标函数,并结合训练图像的相似性信息对高维图像特征进行监督学习,并生成哈希码;(3)利用已训练好的哈希函数构造图像索引,实现对大规模图像数据的检索。本发明专利技术通过基于卷积神经网络和监督核哈希的目标检索方法极大地提高了目标检索效率,增强了在大数据环境下的实用性。

Target retrieval method based on convolutional neural network and supervised kernel hashing

The invention relates to the field of retrieval methods, especially the target retrieval method based on convolution neural network and supervised kernel hashing. The retrieval methods include: (1) introducing the convolution neural network to learn the training image, using its special network structure to implicitly learn the high order representation of the image data and generate the deep features. (2) introducing the supervised kernel hash method to enhance the resolution of the linear non separable data, and using the hash code inner product and Han Mingju The target function is proposed in the equivalent relationship, and the feature of high dimension image is supervised and learned by the similarity information of the training image, and Hashima is generated. (3) using the trained hash function to construct the image index, the retrieval of large scale image data is realized. This invention greatly improves the efficiency of target retrieval through the target retrieval method based on the convolution neural network and the supervision of the nuclear hash, and enhances the practicability in the large data environment.

【技术实现步骤摘要】
基于卷积神经网络和监督核哈希的目标检索方法
本专利技术涉及检索方法领域,尤其是基于卷积神经网络和监督核哈希的目标检索方法。
技术介绍
随着大数据时代的到来,互联网视频图像资源迅猛增长,如何对大规模视频、图像资源中的关注目标进行快速有效地检索以满足用户需求亟待解决。虽然局部特征点的出现,如SIFT(Scale-InvariantFeatureTransform)、HOG(HistogramofOrientatedGradients)等在图像处理领域表现出优良的性能,但是生成这些描述子时固定的编码步骤使得描述子缺少学习能力,限制了其图像内容表达能力,难以适应多样的图像数据,在一定程度上降低了大规模图像目标检索性能。为了得到大量图像数据的内在隐含关系,生成更具有区分性和代表性的特征,Hinton等学者将深度学习(DeepLearning)应用于图像处理领域中,为提取更加有效的图像特征提供了新思路。深度置信网络(DeepBeliefNetwork,DBN)顶层采用三阶玻尔兹曼机(BoltzmannMachine,BM),将改进的DBN用于三维目标特征提取,该特征对目标旋转变化具有较高的鲁棒性。此外,研究者构建了卷积深度置信网络(ConvolutionalDeepBeliefNetwork,CDBN),利用CDBN能从未标注的自然图像中学习有效的高阶特征表示。以及通过在卷积神经网络(ConvolutionalNeuralNetwork,CNN)的卷积层和全连接层加入SPP(SpatialPyramidPooling)层,直接对不同大小图像进行学习并生成多尺度特征。但是,深度学习生成的图像特征维数较高,存在维数灾难问题,当图像数据规模较大时,若采用传统的最近邻检索方法(如R-tree、KD-tree等)进行检索就会使检索速度急剧下降,难以适用于大规模数据。为实现对大规模高维图像数据进行有效检索,研究者提出了近似最近邻搜索策略(ApproximateNearestNeighbor,ANN)。其中,哈希技术(Hashing)是解决近似最近邻检索问题的主流方法,其思想是利用哈希函数族将高维图像特征映射到低维空间中,同时使得原空间中距离较近的点映射到低维空间后仍保持较近的距离。LSH及其改进算法构造的哈希函数都是与数据无关的,近年来,研究者们针对如何结合数据特点构造有效、紧致的哈希函数提出了许多算法。谱哈希方法(SpetralHashing,SH)首先对相似图的拉普拉斯矩阵特征值和特征向量进行分析,再通过放宽限制条件,将对图像特征向量编码问题转换为拉普拉斯特征图的降维问题进行求解,该方法依赖数据本身生成索引比随机产生哈希函数方法达到更高的准确率。但是,无监督的方法并没有考虑图像的语义信息,而用户往往更倾向于检索结果的语义信息。为此,研究人员提出了半监督哈希方法(Semi-SupervisedHashing,SSH)。在半监督学习方法的基础上研究者们还提出了一些全监督哈希方法,例如SH(SemanticHashing)、BRE(BinaryReconstructiveEmbedding)、MLH(MinimalLossHashing)等,全监督哈希方法相比于非监督方法能达到更高的准确率,但是存在优化过程较为复杂、训练效率低等问题,这严重限制了其在大规模数据集上的应用。
技术实现思路
本专利技术要解决的技术问题是:为了解决现有的无监督的方法并没有考虑图像的语义信息的不足,本专利技术提供了一种基于卷积神经网络和监督核哈希的目标检索方法,通过基于卷积神经网络和监督核哈希的目标检索方法,能够能够利用卷积神经网络对大规模图像数据特征进行自主学习,增强图像特征的表达能力。其次,由监督核哈希方法对高维图像深层特征进行监督学习,并将高维特征映射到低维汉明空间中,生成紧致的哈希码,极大地提高了目标检索效率,增强了在大数据环境下的实用性。本专利技术解决其技术问题所采用的技术方案是:一种基于卷积神经网络和监督核哈希的目标检索方法,包括以下步骤:(1)引入卷积神经网络对训练图像进行学习,利用其特殊网络结构隐式地学习得到图像数据的高阶表示,生成深层特征;(2)引入增强对线性不可分数据的分辨力的监督核哈希方法,同时利用哈希码内积与汉明距离的等价关系提出目标函数,并结合训练图像的相似性信息对高维图像特征进行监督学习,并生成哈希码;(3)利用已训练好的哈希函数构造图像索引,实现对大规模图像数据的检索。具体地,所述卷积神经网络的输入图像大小为227×227,输出为4096×1的图像深层特征,一共包含5个卷积层、3个子采样层;在卷积层前一层的特征图与可学习的卷积核Kij进行卷积,卷积的结果经非线性函数f(·)生成这一层的特征图具体形式如下:公式一:为第l个卷积层Cl的输出,代表卷积运算,bj为偏置,卷积核Kij可与前一层的一个或多个特征图确定卷积关系,Mj代表输入特征图集合,常用的非线性函数有f(x)=tanh(x)和f(x)=(1+e-x)-1,卷积层生成的特征图大小hl可由公式二进行计算:公式二:hl-1为第l-1层特征图的大小,zl表示第l层卷积核的大小,λl是卷积核移动步长,ρl表示卷积运算时对前一层特征图边缘补零的列数;各层卷积核大小Z={z1=11,z2=5,z3=z4=z5=3},移动步长Λ={λ1=4,λ2=λ3=λ4=λ5=1},特征图边缘补零列数P={ρ1=0,ρ2=2,ρ3=ρ4=ρ5=1};子采样层采用重叠采样方法对特征图进行最大值采样,采样区域为3×3,采样步长为2个像素;卷积神经网络的训练主要分前向传播和后向传播两个阶段:前向传播阶段:从训练样本中选取一个样本(X,Yp),X从输入层经逐级变换传送到输出层,计算相应的实际输出:公式三:Op=Fn(…(F2(F1(XpW(1))W(2))…)W(n))后向传播阶段:该阶段为误差传播阶段,计算实际输出Op与对应理想输出Yp的误差:公式四:将误差Ep反向逐层后推得到各层的误差,并按最小化误差方法调整神经元权值,当总误差E≤ε时,完成该批次训练样本的训练,当所有批次训练完成后,将图像输入卷积神经网络中,图像数据逐级通过各个网络层后,在输出端即可得到图像的深层特征。具体地,度量图像之间距离时,给定所述哈希码的维数r,则需要r个系数向量a1,…,ar构造哈希函数训练图像的标签信息可通过图像的语义相关性和空间距离获得,定义为描述标签图像集χl={x1,…,xl}中元素之间的相互关系的监督矩阵公式五:使得图像xi,xj的汉明距离Dh(xi,xj)满足:公式六:利用向量内积运算计算哈希码距离,图像x的哈希码coder(x)=[h1(x),…,hr(x)]∈{1,-1}1×r,则图像xi,xj的距离计算如公式十一所示:D(xi,xj)=coder(xi)·coder(xj)=|{k|hk(xi)=hk(xj),1≤k≤r}|-|{k|hk(xi)≠hk(xj),1≤k≤r}=r-2|{k|hk(xi)≠hk(xj),1≤k≤r}|公式七:=r-2Dh(xi,xj)D(xi,xj)∈[-r,r],对D(xi,xj)归一化后得到定义使得相似矩阵与监督矩阵S距离最小的目标函数:公式八:表示求矩阵Frobenius本文档来自技高网
...

【技术保护点】
1.一种基于卷积神经网络和监督核哈希的目标检索方法,其特征是,包括以下步骤:(1)引入卷积神经网络对训练图像进行学习,利用其特殊网络结构隐式地学习得到图像数据的高阶表示,生成深层特征;(2)引入增强对线性不可分数据的分辨力的监督核哈希方法,同时利用哈希码内积与汉明距离的等价关系提出目标函数,并结合训练图像的相似性信息对高维图像特征进行监督学习,并生成哈希码;(3)利用已训练好的哈希函数构造图像索引,实现对大规模图像数据的检索。

【技术特征摘要】
1.一种基于卷积神经网络和监督核哈希的目标检索方法,其特征是,包括以下步骤:(1)引入卷积神经网络对训练图像进行学习,利用其特殊网络结构隐式地学习得到图像数据的高阶表示,生成深层特征;(2)引入增强对线性不可分数据的分辨力的监督核哈希方法,同时利用哈希码内积与汉明距离的等价关系提出目标函数,并结合训练图像的相似性信息对高维图像特征进行监督学习,并生成哈希码;(3)利用已训练好的哈希函数构造图像索引,实现对大规模图像数据的检索。2.根据权利要求1所述的基于卷积神经网络和监督核哈希的目标检索方法,其特征在于:所述卷积神经网络的输入图像大小为227×227,输出为4096×1的图像深层特征,一共包含5个卷积层、3个子采样层;在卷积层前一层的特征图与可学习的卷积核Kij进行卷积,卷积的结果经非线性函数f(·)生成这一层的特征图具体形式如下:公式一:为第l个卷积层Cl的输出,代表卷积运算,bj为偏置,卷积核Kij可与前一层的一个或多个特征图确定卷积关系,Mj代表输入特征图集合,常用的非线性函数有f(x)=tanh(x)和f(x)=(1+e-x)-1,卷积层生成的特征图大小hl可由公式二进行计算:公式二:hl-1为第l-1层特征图的大小,zl表示第l层卷积核的大小,λl是卷积核移动步长,ρl表示卷积运算时对前一层特征图边缘补零的列数;各层卷积核大小Z={z1=11,z2=5,z3=z4=z5=3},移动步长Λ={λ1=4,λ2=λ3=λ4=λ5=1},特征图边缘补零列数P={ρ1=0,ρ2=2,ρ3=ρ4=ρ5=1};子采样层采用重叠采样方法对特征图进行最大值采样,采样区域为3×3,采样步长为2个像素;卷积神经网络的训练主要分前向传播和后向传播两个阶段:前向传播阶段:从训练样本中选取一个样本(X,Yp),X从输入层经逐级变换传送到输出层,计算相应的实际输出:公式三:Op=Fn(…(F2(F1(XpW(1))W(2))…)...

【专利技术属性】
技术研发人员:李弼程赵永威朱彩英陈良浩
申请(专利权)人:江苏测联空间大数据应用研究中心有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1