基于深度关联网络的跨模态检索方法技术

技术编号:17541648 阅读:64 留言:0更新日期:2018-03-24 18:43
本发明专利技术提出了基于深度关联网络的跨模态检索方法,包括如下步骤:1)利用初始特征提取方法分别获得第一模态数据的初级向量和第二模态数据的初级向量;2)建立和训练深度关联网络模型,然后分别将检索目标和检索库成员通过深度关联网络模型获得相对应的高级表示向量;3)利用高级表示向量对检索目标和检索库中每一个检索成员进行相似度匹配,即进行欧式距离的计算;4)将欧氏距离的计算结果按从小到大的顺利排列,得到检索目标的跨模态检索的结果列表。本方法在不同模态的数据之间建立了多层次的对应关联关系,同时融合了多种神经网络,使得深度模型具有更好的表示效果,并且跨模态检索的精确度更高、稳定性更好。

Cross modal retrieval method based on deep association network

The invention provides a cross modal retrieval method based on depth correlation network, which comprises the following steps: 1) extraction method using the initial feature vector were obtained first primary modal data of the primary vector and second modal data; 2) establishing and training depth correlation network model, and then search and retrieval target library members to obtain advanced vector the corresponding depth through the correlation network model; 3) using advanced vector of target retrieval and retrieval in the library of every member search by matching the calculated Euclidean distance; 4) will calculate the Euclidean distance according to the sequence from small to large, from the search target cross modal retrieval result list. This method establishes multi-level correlation relations among different modal data, and integrates many kinds of neural networks, which makes the depth model have better representation effect, and the cross modal retrieval accuracy is higher and the stability is better.

【技术实现步骤摘要】
基于深度关联网络的跨模态检索方法
本专利技术涉及多媒体数据检索的技术,特别是基于深度关联网络的跨模态检索方法。
技术介绍
多媒体信息爆发式增长的时代,人们更倾向于多元化的检索结果,而不仅仅是单一模态的检索。例如,看到一张风景画,如果向检索系统提交这幅图片,检索系统不仅检索出类似的风景画,还能同时检索出与这幅图片有关的音频或文字等信息,这会使得检索效果会更有影响力。这种使用某一模态的数据检索其它模态数据的过程,称为跨模态的检索。传统的跨模态检索,例如文本检索图像,往往依据的还是图像的文本标注信息与检索文本的匹配,因此其本质上还是一种单模态的检索。然而,信息的爆发式增长使得人工标注成本太高,同时图像本身含有的丰富信息也难以用有限的标签表示出来;此外,由于标注人员的认知差异往往又会导致标签质量参差不齐。所有这些方面都会在很大程度上影响到检索结果的精确性。深度学习在处理语音、文本以及图像方面的巨大成功,为人们从深度语义角度,探索新的无监督的跨模态检索带来了希望。基于深度学习的算法可以分为两类:1)第一类方法将建模的过程分为两个阶段,第一个阶段分别将各自模态的数据进行抽象化的表示,第二个阶段将第一阶段抽象化的结果映射到一个共享的表示空间,以建立多模态数据之间的关联;但是此类方法割裂了表示学习和关联学习之间的联系,使得无法判断数据抽象到何种程度最适合跨模态的检索任务,并且其共享层既包含不同模态数据的共有信息,也包含单模态数据的特有信息,不利于跨模态检索的进行。2)第二类方法将关联学习融入到了表示学习的过程中,使其形成一个有机的整体。虽然第二类方法在实践过程中被证明更加适合跨模态检索的任务;但是现存的第二类算法仍存在检索效果不稳定,或是构成深度网络的组件种类过于单一导致检索精确度不高的问题。
技术实现思路
本专利技术针对跨模态的检索问题,提出了基于深度关联网络(DeepCorrelatedNetworks,DCN)的跨模态检索方法,在不同模态的数据之间建立了多层次的对应关联关系,同时融合了多种神经网络,使得深度模型具有更好的表示效果,并且跨模态检索的精确度更高、稳定性更好。实现本专利技术目的的技术方案是:基于深度关联网络的跨模态检索方法,包括如下步骤:1)利用初始特征提取方法分别获得第一模态数据的初级向量和第二模态数据的初级向量;2)建立和训练DCN模型,分别将检索目标和检索库成员通过DCN模型获得相对应的高级表示向量;3)利用高级表示向量对检索目标和检索库中每一个检索成员进行相似度匹配,即进行欧式距离的计算;4)将欧氏距离的计算结果按从小到大的顺利排列,从而得到检索目标的跨模态检索的结果列表。步骤1)中所述的初级向量包括如下步骤:(1)设置图像模态数据为第一模态数据时,文本模态数据就是第二模态数据,反之亦然;(2)针对不同模态的原始数据采用不同的初始特征提取方法;图像模态的数据可以通过PHOW、Gist、MPEG-7等方法进行原始特征的提取,然后进行特征的拼接形成初级向量;文本模态的数据则可以通过词袋模型的方法进行原始特征的提取,形成初级向量。步骤2)中所述的获得相对应的高级表示向量包括如下步骤:(1)使用训练集数据对DCN模型进行训练,得到DCN模型的各项参数,具体步骤如下:①训练DCN模型的第一部分,即对应受限玻尔兹曼机模型(CorrespondencerestrictBoltzmannmachine,Corr-RBM),得到其参数集合,Corr-RBM目标函数包含三个部分,即第一模态数据的中间表示向量与第一模态数据的初级向量之间的误差和第二模态数据的中间表示向量与第二模态数据的初级向量之间的误差以及第一模态数据和第二模态数据的中间表示向量在统一的表示空间中的距离,具体表示为:minL=LD+αLI+βLT,其中,LI=-logp(vI),LT=-logp(vT),角标I表示第一模态,角标T表示第二模态,具体的,vI表示第一模态的数据,vT表示第二模态的数据,LD表示第一模态数据和第二模态数据在统一的表示空间的欧氏距离,f(·)为受限玻尔兹曼机(restrictBoltzmannmachine,RBM)从显示层到隐层的映射函数,LI和LT分别表示第一模态数据的似然和第二模态数据的似然,p(·)表示RBM可见层与隐层神经单元的联合概率分布,α和β分别是控制第一模态数据和第二模态数据在整个目标函数中所占比重的超参数;训练策略采用交替迭代的思想,首先使用对比散度(contrastivedivergence,CD)算法更新LI和LT的参数,然后使用梯度下降算法更新LD的参数,其具体步骤如下:A.使用CD算法更新LI和LT的参数,其参数包括:第一模态的Corr-RBM可见层与隐层之间的连接权值参数WI,第一模态的Corr-RBM显示层神经单元的偏置参数cI,第一模态的Corr-RBM隐层神经单元的偏置参数bI,第二模态的Corr-RBM可见层与隐层之间的连接权值参数WT,第二模态的Corr-RBM显示层神经单元的偏置参数cT,第二模态的Corr-RBM隐层神经单元的偏置参数bT,其更新值不仅要乘以学习率,还要依据第一模态和第二模态分别乘以目标函数中的α和β;B.根据LD的公式使用梯度下降算法再次更新参数WI,bI,WT,bT,其更新公式如下:其中,i和j分别表示显示层和隐藏层的第i和第j个神经元,表示第一模态的Corr-RBM可见层与隐层之间的连接权值参数,为第一模态的Corr-RBM隐层神经单元的偏置参数,为经过Corr-RBM处理的第一模态数据的中间表示,表示第二模态的Corr-RBM可见层与隐层之间的连接权值参数,为第二模态的Corr-RBM隐层神经单元的偏置参数,为经过Corr-RBM处理的第二模态数据的中间表示,σ′(·)表示Logistic函数的导函数,∈表示学习率;C.重复A、B步骤直至收敛;②训练DCN模型的第二部分,即对应自动编码器模型(Correspondenceautoencoder,Corr-AE),得到其参数集合,Corr-AE目标函数包含三个部分,即第一模态数据的中间表示向量与第一模态数据的初级向量之间的误差和第二模态数据的中间表示向量与第二模态数据的初级向量之间的误差以及第一模态数据和第二模态数据的高级表示向量在统一的表示空间中的相似程度,具体表示为:其中,其中,角标I表示第一模态,角标T表示第二模态,具体的,和分别表示输入的第一模态数据和第二模态数据的向量,即经过Corr-RBM处理的第一模态数据和第二模态数据的中间表示向量,和分别表示重构之后的第一模态数据和第二模态数据的表示向量,和分别表示第一模态向量和第二模态向量的重构平方误差,表示第一模态数据和第二模态数据高级表示向量之间的欧式距离之和,其中,和分别表示第一模态自动编码器(autoencoder,AE)的表示层和第二模态AE的表示层,Wf和Wg分别表示第一模态的自动编码器权重参数和第二模态的自动编码器权重参数;θ为控制重构误差和关联误差在损失函数中所占比重的超参数;训练策略为梯度下降的思想,其更新Corr-AE部分的具体步骤如下:A.使用梯度计算更新参数Wf,其中,∈表示学习率:B.使用梯度计算更新参数Wg,其中,∈表示学习率:C.本文档来自技高网
...
基于深度关联网络的跨模态检索方法

【技术保护点】
基于深度关联网络的跨模态检索方法,其特征在于,包括如下步骤:1)利用初始特征提取方法分别获得第一模态数据的初级向量和第二模态数据的初级向量;2)建立和训练深度关联网络模型,分别将检索目标和检索库成员通过深度关联网络模型获得相对应的高级表示向量;3)利用高级表示向量对检索目标和检索库中每一个检索成员进行相似度匹配,即进行欧式距离的计算;4)将欧氏距离的计算结果按从小到大的顺利排列,得到检索目标的跨模态检索的结果列表。

【技术特征摘要】
1.基于深度关联网络的跨模态检索方法,其特征在于,包括如下步骤:1)利用初始特征提取方法分别获得第一模态数据的初级向量和第二模态数据的初级向量;2)建立和训练深度关联网络模型,分别将检索目标和检索库成员通过深度关联网络模型获得相对应的高级表示向量;3)利用高级表示向量对检索目标和检索库中每一个检索成员进行相似度匹配,即进行欧式距离的计算;4)将欧氏距离的计算结果按从小到大的顺利排列,得到检索目标的跨模态检索的结果列表。2.根据权利要求1所述的基于深度关联网络的跨模态检索方法,其特征在于,步骤1)中所述的初级向量包括如下步骤:(1)设置图像模态数据为第一模态数据时,文本模态数据为第二模态数据,反之亦然;(2)不同模态的原始数据采用不同的初始特征提取方法;图像模态的数据可以通过PHOW、Gist、MPEG-7方法进行原始特征的提取,然后进行特征的拼接形成初级向量;文本模态的数据则可以通过词袋模型的方法进行原始特征的提取,形成初级向量。3.根据权利要求1所述的基于深度关联网络的跨模态检索方法,其特征在于,步骤2)中所述的获得相对应的高级表示向量包括如下步骤:(1)使用训练集数据对深度关联网络模型进行训练,得到深度关联网络模型的各项参数,具体步骤如下:①训练深度关联网络模型的第一部分,即对应受限玻尔兹曼机模型,得到受限玻尔兹曼机模型参数集合,受限玻尔兹曼机模型目标函数包含三个部分,即第一模态数据的中间表示向量与第一模态数据的初级向量之间的误差和第二模态数据的中间表示向量与第二模态数据的初级向量之间的误差以及第一模态数据和第二模态数据的中间表示向量在统一的表示空间中的距离,具体表示为:minL=LD+αLI+βLT,其中,LI=-logp(vI),LT=-logp(vT),角标I表示第一模态,角标T表示第二模态,具体的,vI表示第一模态的数据,vT表示第二模态的数据,LD表示第一模态数据和第二模态数据在统一的表示空间的欧氏距离,f(.)为受限玻尔兹曼机从显示层到隐层的映射函数,LI和LT分别表示第一模态数据的似然和第二模态数据的似然,p(.)表示受限玻尔兹曼机可见层与隐层神经单元的联合概率分布,α和β分别是控制第一模态数据和第二模态数据在整个目标函数中所占比重的超参数;训练策略采用交替迭代的思想,首先使用对比散度算法更新LI和LT的参数,然后使用梯度下降算法更新LD的参数,其具体步骤如下:A.使用对比散度算法更新LI和LT的参数,其参数包括:第一模态的受限玻尔兹曼机模型可见层与隐层之间的连接权值参数WI,第一模态的受限玻尔兹曼机模型显示层神经单元的偏置参数cI,第一模态的受限玻尔兹曼机模型隐层神经单元的偏置参数bI,第二模态的受限玻尔兹曼机模型可见层与隐层之间的连接权值参数WT,第二模态的受限玻尔兹曼机模型显示层神经单元的偏置参数cT,第二模态的受限玻尔兹曼机模型隐层神经单元的偏置参数bT,其更新值不仅要乘以学习率,还要依据第一模态和第二模态分别乘以目标函数中的α和β;B.根据LD的公式使用梯度下降算法再次更新参数WI,bI,WT,bT,其更新公式如下:

【专利技术属性】
技术研发人员:蔡国永冯耀功
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1