The invention provides a cross modal retrieval method based on depth correlation network, which comprises the following steps: 1) extraction method using the initial feature vector were obtained first primary modal data of the primary vector and second modal data; 2) establishing and training depth correlation network model, and then search and retrieval target library members to obtain advanced vector the corresponding depth through the correlation network model; 3) using advanced vector of target retrieval and retrieval in the library of every member search by matching the calculated Euclidean distance; 4) will calculate the Euclidean distance according to the sequence from small to large, from the search target cross modal retrieval result list. This method establishes multi-level correlation relations among different modal data, and integrates many kinds of neural networks, which makes the depth model have better representation effect, and the cross modal retrieval accuracy is higher and the stability is better.
【技术实现步骤摘要】
基于深度关联网络的跨模态检索方法
本专利技术涉及多媒体数据检索的技术,特别是基于深度关联网络的跨模态检索方法。
技术介绍
多媒体信息爆发式增长的时代,人们更倾向于多元化的检索结果,而不仅仅是单一模态的检索。例如,看到一张风景画,如果向检索系统提交这幅图片,检索系统不仅检索出类似的风景画,还能同时检索出与这幅图片有关的音频或文字等信息,这会使得检索效果会更有影响力。这种使用某一模态的数据检索其它模态数据的过程,称为跨模态的检索。传统的跨模态检索,例如文本检索图像,往往依据的还是图像的文本标注信息与检索文本的匹配,因此其本质上还是一种单模态的检索。然而,信息的爆发式增长使得人工标注成本太高,同时图像本身含有的丰富信息也难以用有限的标签表示出来;此外,由于标注人员的认知差异往往又会导致标签质量参差不齐。所有这些方面都会在很大程度上影响到检索结果的精确性。深度学习在处理语音、文本以及图像方面的巨大成功,为人们从深度语义角度,探索新的无监督的跨模态检索带来了希望。基于深度学习的算法可以分为两类:1)第一类方法将建模的过程分为两个阶段,第一个阶段分别将各自模态的数据进行抽象化的表示,第二个阶段将第一阶段抽象化的结果映射到一个共享的表示空间,以建立多模态数据之间的关联;但是此类方法割裂了表示学习和关联学习之间的联系,使得无法判断数据抽象到何种程度最适合跨模态的检索任务,并且其共享层既包含不同模态数据的共有信息,也包含单模态数据的特有信息,不利于跨模态检索的进行。2)第二类方法将关联学习融入到了表示学习的过程中,使其形成一个有机的整体。虽然第二类方法在实践过程中被证明更加 ...
【技术保护点】
基于深度关联网络的跨模态检索方法,其特征在于,包括如下步骤:1)利用初始特征提取方法分别获得第一模态数据的初级向量和第二模态数据的初级向量;2)建立和训练深度关联网络模型,分别将检索目标和检索库成员通过深度关联网络模型获得相对应的高级表示向量;3)利用高级表示向量对检索目标和检索库中每一个检索成员进行相似度匹配,即进行欧式距离的计算;4)将欧氏距离的计算结果按从小到大的顺利排列,得到检索目标的跨模态检索的结果列表。
【技术特征摘要】
1.基于深度关联网络的跨模态检索方法,其特征在于,包括如下步骤:1)利用初始特征提取方法分别获得第一模态数据的初级向量和第二模态数据的初级向量;2)建立和训练深度关联网络模型,分别将检索目标和检索库成员通过深度关联网络模型获得相对应的高级表示向量;3)利用高级表示向量对检索目标和检索库中每一个检索成员进行相似度匹配,即进行欧式距离的计算;4)将欧氏距离的计算结果按从小到大的顺利排列,得到检索目标的跨模态检索的结果列表。2.根据权利要求1所述的基于深度关联网络的跨模态检索方法,其特征在于,步骤1)中所述的初级向量包括如下步骤:(1)设置图像模态数据为第一模态数据时,文本模态数据为第二模态数据,反之亦然;(2)不同模态的原始数据采用不同的初始特征提取方法;图像模态的数据可以通过PHOW、Gist、MPEG-7方法进行原始特征的提取,然后进行特征的拼接形成初级向量;文本模态的数据则可以通过词袋模型的方法进行原始特征的提取,形成初级向量。3.根据权利要求1所述的基于深度关联网络的跨模态检索方法,其特征在于,步骤2)中所述的获得相对应的高级表示向量包括如下步骤:(1)使用训练集数据对深度关联网络模型进行训练,得到深度关联网络模型的各项参数,具体步骤如下:①训练深度关联网络模型的第一部分,即对应受限玻尔兹曼机模型,得到受限玻尔兹曼机模型参数集合,受限玻尔兹曼机模型目标函数包含三个部分,即第一模态数据的中间表示向量与第一模态数据的初级向量之间的误差和第二模态数据的中间表示向量与第二模态数据的初级向量之间的误差以及第一模态数据和第二模态数据的中间表示向量在统一的表示空间中的距离,具体表示为:minL=LD+αLI+βLT,其中,LI=-logp(vI),LT=-logp(vT),角标I表示第一模态,角标T表示第二模态,具体的,vI表示第一模态的数据,vT表示第二模态的数据,LD表示第一模态数据和第二模态数据在统一的表示空间的欧氏距离,f(.)为受限玻尔兹曼机从显示层到隐层的映射函数,LI和LT分别表示第一模态数据的似然和第二模态数据的似然,p(.)表示受限玻尔兹曼机可见层与隐层神经单元的联合概率分布,α和β分别是控制第一模态数据和第二模态数据在整个目标函数中所占比重的超参数;训练策略采用交替迭代的思想,首先使用对比散度算法更新LI和LT的参数,然后使用梯度下降算法更新LD的参数,其具体步骤如下:A.使用对比散度算法更新LI和LT的参数,其参数包括:第一模态的受限玻尔兹曼机模型可见层与隐层之间的连接权值参数WI,第一模态的受限玻尔兹曼机模型显示层神经单元的偏置参数cI,第一模态的受限玻尔兹曼机模型隐层神经单元的偏置参数bI,第二模态的受限玻尔兹曼机模型可见层与隐层之间的连接权值参数WT,第二模态的受限玻尔兹曼机模型显示层神经单元的偏置参数cT,第二模态的受限玻尔兹曼机模型隐层神经单元的偏置参数bT,其更新值不仅要乘以学习率,还要依据第一模态和第二模态分别乘以目标函数中的α和β;B.根据LD的公式使用梯度下降算法再次更新参数WI,bI,WT,bT,其更新公式如下:
【专利技术属性】
技术研发人员:蔡国永,冯耀功,
申请(专利权)人:桂林电子科技大学,
类型:发明
国别省市:广西,45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。