当前位置: 首页 > 专利查询>宁夏大学专利>正文

基于生成对抗网络的跨模态检索方法技术

技术编号:20117814 阅读:1045 留言:0更新日期:2019-01-16 12:04
本发明专利技术公开了一种基于生成对抗网络的跨模态检索方法,涉及多媒体数据检索技术领域,所述方法包括以下步骤:步骤1、利用特征提取方法对输入模态的数据和目标模态的数据进行特征提取;步骤2、建立和训练GAN模型,使得GAN模型可由输入模态的数据生成目标模态的数据;步骤3、利用GAN模型生成的目标模态的数据与步骤1中获取的对应模态的数据进行相似度匹配,即进行欧式距离的计算;步骤4、将欧式距离的计算结果从小到大排列,从而得到跨模态检索的结果;欧式距离越小,排名越靠前的结果与检索目标的相似度越高。与现有跨模态检索模型相比,本发明专利技术更充分利用深度神经网络的学习与映射能力,提高了跨模态检索准确度。

A Cross-modal Retrieval Method Based on Generating Countermeasure Network

The invention discloses a cross-modal retrieval method based on generation antagonism network, which relates to the technical field of multimedia data retrieval. The method includes the following steps: step 1, feature extraction method is used to extract the data of input mode and target mode; step 2, GAN model is established and trained to generate target mode from the data of input mode. Step 3: Similarity matching between the target modal data generated by GAN model and the corresponding modal data obtained in step 1, i.e. calculation of Euclidean distance; Step 4: Arrangement the calculation results of Euclidean distance from small to large, so as to obtain the results of cross-modal retrieval; The smaller the Euclidean distance, the higher the similarity between the ranking results and the retrieval target. \u3002 Compared with the existing cross-modal retrieval model, the invention makes full use of the learning and mapping ability of the deep neural network, and improves the accuracy of cross-modal retrieval.

【技术实现步骤摘要】
基于生成对抗网络的跨模态检索方法
本专利技术涉及多媒体数据检索
,尤其涉及一种基于生成对抗网络的跨模态检索方法。
技术介绍
随着互联网技术的发展,越来越多的具有相同语义的媒体数据以多种模态的形式同时出现,例如,新闻报道与其对应的照片,病人的诊断说明与医疗影像。目前人们更需要通过一种模态检索到另一种模态,而不仅是对单一模态的检索。例如,看到一张照片,将照片提交给检索系统,检索系统可以检索到与这张照片有关的文本信息;患者可以将自己的X光片图像提交给检索系统,检索系统会返回与该X光片相符的诊断文本。这种使用一种模态的数据检索到其他模态数据的方法,称为跨模态检索。传统的跨模态检索方法,例如通过文本检索图像,其原理还是根据对图像的文本标注信息的检索实现,本质还是一种单模态的检索。但互联网的发展非常迅速,大量的图像与文本信息不断涌现,这使得对图像的标注费时费力;此外由于人工标注往往不能完全表达图像的内容,从而对检索结果有一定影响。而目前深度学习技术在处理文本以及图像方面取得了良好的效果,为人们从深度学习技术入手,实现新的跨模态检索技术提供了道路。目前基于深度学习的算法可以分为两种:1)第一类方法将不同的模态数据分别进行抽象化表示,然后再将这些抽象化的结果映射到一个公共的表示空间,以建立各个模态之间的关联,但是此类方法缺少了表示学习和关联学习之间的联系,这使得公共表示空间既包含多种模态的共有信息,又包含单模态数据的特有信息,不利于跨模态检索的进行;2)第二类方法将关联学习与表示学习融合成为整体,但是目前这种方法仍存在检索效果不稳定、检索精度不高等问题。因此,本领域的技术人员致力于开发一种更好的跨模态检索方法,提高上述检索效果不稳定、检索精度不高的问题。
技术实现思路
本专利技术针对跨模态检索的问题,提出了基于生成对抗网络(GenerativeAdversarialNetworks,GAN)的跨模态检索方法,利用深度神经网络良好的编码能力,在不同模态数据之间建立转化的桥梁,使得深度模型具有更好的表现效果,并且跨模态检索的准确度更高。为实现上述目的,本专利技术提供了一种基于生成对抗网络的跨模态检索方法,其特征在于,所述方法包括以下步骤:步骤1、利用特征提取方法对输入模态的数据和目标模态的数据进行特征提取;步骤2、建立和训练GAN模型,使得GAN模型可由输入模态的数据生成目标模态的数据;步骤3、利用GAN模型生成的目标模态的数据与步骤1中获取的对应模态的数据进行相似度匹配,即进行欧式距离的计算;步骤4、将欧式距离的计算结果从小到大排列,从而得到跨模态检索的结果;欧式距离越小,排名越靠前的结果与检索目标的相似度越高。进一步地,所述步骤1中所述的特征提取包括如下步骤:步骤1.1、当文本数据为输入模态数据时,图像数据即为目标模态数据,反之亦然;步骤1.2、针对不同模态的数据采用不同的方法提取特征:图像数据特征通过VGG-16、FCN方法进行提取;文本模态数据通过word2vec方法进行特征提取;对于图像和文本数据,提取后的特征均以向量方式表示。进一步地,所述步骤2中所述的建立和训练GAN模型包括如下步骤:步骤2.1、使用基于Tensorflow框架的方法搭建GAN网络模型;步骤2.2、使用训练集数据对GAN模型进行训练,得到GAN模型的各种参数。进一步地,所述步骤2.2中所述使用训练集数据对GAN模型进行训练包括如下步骤:步骤2.2.1、初始化判别器的参数θd和生成器的参数θg;步骤2.2.2、训练GAN中的判别器:将目标模态数据集送入判别器并进行训练,判别器对输入数据学习以获取其语义信息;步骤2.2.3、训练GAN中的生成器:将某种模态数据作为输入模态数据,送入生成器,生成器将依据输入模态数据生成目标模态数据并将其送入判别器,判别器将对生成的目标模态数据进行判别,并将结果反馈给生成器;步骤2.2.4、重复步骤2.2.2和步骤2.2.3,直至判别器与生成器均收敛,获得GAN模型的参数集合θ。进一步地,所述步骤2.2.2中对判别器的训练包括如下步骤:步骤2.2.2.1:从训练集的数据Pdata(x)中取出输入模态数据的m个训练样本{x1,x2,...,xm};步骤2.2.2.2:从训练集的数据Pdata(x)中取出目标模态数据的m个样本{z1,z2,...,zm};步骤2.2.2.3:获取生成的数据步骤2.2.2.4:更新判别器的参数θd到最大化:其中:Pdata(x)是用向量表示的训练集,包括输入模态数据和目标模态数据,G代表生成器的分布,D代表判别器的结果。进一步地,所述步骤2.2.3中对生成器的训练包括如下步骤:步骤2.2.3.1:从预先设置的训练集的数据Pdata(x)中取出不同于步骤2.2.2.2中的m个样本{z1,z2,...,zm};步骤2.2.3.2:更新生成器的参数θg到最小化:进一步地,所述步骤3中所述的欧式距离的计算如下:输入模态数据进入GAN模型后,得到目标模态数据,该模态数据将与真实的对应模态数据中所有数据进行欧式距离计算,通过欧式距离来反映两个向量间的相似程度。进一步地,在n维空间中,所述步骤3中的欧式距离d的计算公式为:其中ti和yi为两个n维向量。本专利技术具有的有益效果是:充分利用GAN的编码能力,在不同模态的数据之间构建映射桥梁,摆脱了现有深度网络的跨模态检索模型中较为复杂的网络结构;与现有的跨模态检索模型相比,更充分的利用了深度神经网络的学习与映射能力,提高了跨模态检索准确度。以下将结合附图对本专利技术的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本专利技术的目的、特征和效果。附图说明图1为本专利技术技术方案的流程图;图2为本专利技术中生成对抗网络模型的结构图;图3为本专利技术中生成对抗网络模型训练的流程图;图4为本专利技术实施例的流程图;图5为跨模态检索的结果对比图。具体实施方式以下参考说明书附图介绍本专利技术的多个优选实施例,使其
技术实现思路
更加清楚和便于理解。本专利技术可以通过许多不同形式的实施例来得以体现,本专利技术的保护范围并非仅限于文中提到的实施例。为解决跨模态检索问题,本专利技术提出一种基于GAN的跨模态检索方法,本专利技术技术方案流程图如图1所示,包括以下步骤:步骤1:利用特征提取方法对输入模态的数据和目标模态的数据进行特征提取,获得输入模态和目标模态数据的向量表示;步骤2:建立和训练GAN模型,使得GAN模型可由一种模态的数据(输入模态)生成另一种模态的数据(目标模态);步骤3:利用GAN模型生成的目标模态数据与步骤1中获取的对应模态的数据进行相似度匹配,即进行欧式距离的计算;步骤4:将欧式距离的计算结果从小到大排列,从而得到跨模态检索的结果。图2为本专利技术中GAN模型的神经网络结构图。GAN模型包含一个生成器(Generator)和一个判别器(Discriminator),生成器的作用是依据输入模态数据的特征向量表示生成出与之对应的目标模态数据的特征向量表示,判别器的作用是在训练中,保证生成器可以正确生成目标模态数据的特征向量表示,以确保输入模态和输出模态间的映射正确。下面对GAN模型进行详细介绍。GAN模型:生成对抗网络(GenerativeAdversarialNetwork,GAN)的目的是希望根据输入本文档来自技高网
...

【技术保护点】
1.一种基于生成对抗网络的跨模态检索方法,其特征在于,所述方法包括以下步骤:步骤1、利用特征提取方法对输入模态的数据和目标模态的数据进行特征提取;步骤2、建立和训练GAN模型,使得GAN模型可由输入模态的数据生成目标模态的数据;步骤3、利用GAN模型生成的目标模态的数据与步骤1中获取的对应模态的数据进行相似度匹配,即进行欧式距离的计算;步骤4、将欧式距离的计算结果从小到大排列,从而得到跨模态检索的结果;欧式距离越小,排名越靠前的结果与检索目标的相似度越高。

【技术特征摘要】
1.一种基于生成对抗网络的跨模态检索方法,其特征在于,所述方法包括以下步骤:步骤1、利用特征提取方法对输入模态的数据和目标模态的数据进行特征提取;步骤2、建立和训练GAN模型,使得GAN模型可由输入模态的数据生成目标模态的数据;步骤3、利用GAN模型生成的目标模态的数据与步骤1中获取的对应模态的数据进行相似度匹配,即进行欧式距离的计算;步骤4、将欧式距离的计算结果从小到大排列,从而得到跨模态检索的结果;欧式距离越小,排名越靠前的结果与检索目标的相似度越高。2.如权利要求1所述的基于生成对抗网络的跨模态检索方法,其特征在于,所述步骤1中所述的特征提取包括如下步骤:步骤1.1、当文本数据为输入模态数据时,图像数据即为目标模态数据,反之亦然;步骤1.2、针对不同模态的数据采用不同的方法提取特征:图像数据特征通过VGG-16、FCN方法进行提取;文本模态数据通过word2vec方法进行特征提取;对于图像和文本数据,提取后的特征均以向量方式表示。3.如权利要求1所述的基于生成对抗网络的跨模态检索方法,其特征在于,所述步骤2中所述的建立和训练GAN模型包括如下步骤:步骤2.1、使用基于Tensorflow框架的方法搭建GAN网络模型;步骤2.2、使用训练集数据对GAN模型进行训练,得到GAN模型的各种参数。4.如权利要求3所述的基于生成对抗网络的跨模态检索方法,其特征在于,所述步骤2.2中所述使用训练集数据对GAN模型进行训练包括如下步骤:步骤2.2.1、初始化判别器的参数θd和生成器的参数θg;步骤2.2.2、训练GAN中的判别器:将目标模态数据集送入判别器并进行训练,判别器对输入数据学习以获取其语义信息;步骤2.2.3、训练GAN中的生成器:将某种模态数据作为输入模...

【专利技术属性】
技术研发人员:刘立波徐峰程晓龙郑斌郭进祥
申请(专利权)人:宁夏大学
类型:发明
国别省市:宁夏,64

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1