基于生成对抗网络的跨模态检索方法技术

技术编号：20117814 阅读：1045 留言：0更新日期：2019-01-16 12:04

本发明专利技术公开了一种基于生成对抗网络的跨模态检索方法，涉及多媒体数据检索技术领域，所述方法包括以下步骤：步骤1、利用特征提取方法对输入模态的数据和目标模态的数据进行特征提取；步骤2、建立和训练GAN模型，使得GAN模型可由输入模态的数据生成目标模态的数据；步骤3、利用GAN模型生成的目标模态的数据与步骤1中获取的对应模态的数据进行相似度匹配，即进行欧式距离的计算；步骤4、将欧式距离的计算结果从小到大排列，从而得到跨模态检索的结果；欧式距离越小，排名越靠前的结果与检索目标的相似度越高。与现有跨模态检索模型相比，本发明专利技术更充分利用深度神经网络的学习与映射能力，提高了跨模态检索准确度。

A Cross-modal Retrieval Method Based on Generating Countermeasure Network

The invention discloses a cross-modal retrieval method based on generation antagonism network, which relates to the technical field of multimedia data retrieval. The method includes the following steps: step 1, feature extraction method is used to extract the data of input mode and target mode; step 2, GAN model is established and trained to generate target mode from the data of input mode. Step 3: Similarity matching between the target modal data generated by GAN model and the corresponding modal data obtained in step 1, i.e. calculation of Euclidean distance; Step 4: Arrangement the calculation results of Euclidean distance from small to large, so as to obtain the results of cross-modal retrieval; The smaller the Euclidean distance, the higher the similarity between the ranking results and the retrieval target. \u3002 Compared with the existing cross-modal retrieval model, the invention makes full use of the learning and mapping ability of the deep neural network, and improves the accuracy of cross-modal retrieval.

全部详细技术资料下载

【技术实现步骤摘要】
基于生成对抗网络的跨模态检索方法
本专利技术涉及多媒体数据检索
，尤其涉及一种基于生成对抗网络的跨模态检索方法。
技术介绍
随着互联网技术的发展，越来越多的具有相同语义的媒体数据以多种模态的形式同时出现，例如，新闻报道与其对应的照片，病人的诊断说明与医疗影像。目前人们更需要通过一种模态检索到另一种模态，而不仅是对单一模态的检索。例如，看到一张照片，将照片提交给检索系统，检索系统可以检索到与这张照片有关的文本信息；患者可以将自己的X光片图像提交给检索系统，检索系统会返回与该X光片相符的诊断文本。这种使用一种模态的数据检索到其他模态数据的方法，称为跨模态检索。传统的跨模态检索方法，例如通过文本检索图像，其原理还是根据对图像的文本标注信息的检索实现，本质还是一种单模态的检索。但互联网的发展非常迅速，大量的图像与文本信息不断涌现，这使得对图像的标注费时费力；此外由于人工标注往往不能完全表达图像的内容，从而对检索结果有一定影响。而目前深度学习技术在处理文本以及图像方面取得了良好的效果，为人们从深度学习技术入手，实现新的跨模态检索技术提供了道路。目前基于深度学习的算法可以分为两种：1)第一类方法将不同的模态数据分别进行抽象化表示，然后再将这些抽象化的结果映射到一个公共的表示空间，以建立各个模态之间的关联，但是此类方法缺少了表示学习和关联学习之间的联系，这使得公共表示空间既包含多种模态的共有信息，又包含单模态数据的特有信息，不利于跨模态检索的进行；2)第二类方法将关联学习与表示学习融合成为整体，但是目前这种方法仍存在检索效果不稳定、检索精度不高等问题。因此，本领域...

【技术保护点】
1.一种基于生成对抗网络的跨模态检索方法，其特征在于，所述方法包括以下步骤：步骤1、利用特征提取方法对输入模态的数据和目标模态的数据进行特征提取；步骤2、建立和训练GAN模型，使得GAN模型可由输入模态的数据生成目标模态的数据；步骤3、利用GAN模型生成的目标模态的数据与步骤1中获取的对应模态的数据进行相似度匹配，即进行欧式距离的计算；步骤4、将欧式距离的计算结果从小到大排列，从而得到跨模态检索的结果；欧式距离越小，排名越靠前的结果与检索目标的相似度越高。

【技术特征摘要】
1.一种基于生成对抗网络的跨模态检索方法，其特征在于，所述方法包括以下步骤：步骤1、利用特征提取方法对输入模态的数据和目标模态的数据进行特征提取；步骤2、建立和训练GAN模型，使得GAN模型可由输入模态的数据生成目标模态的数据；步骤3、利用GAN模型生成的目标模态的数据与步骤1中获取的对应模态的数据进行相似度匹配，即进行欧式距离的计算；步骤4、将欧式距离的计算结果从小到大排列，从而得到跨模态检索的结果；欧式距离越小，排名越靠前的结果与检索目标的相似度越高。2.如权利要求1所述的基于生成对抗网络的跨模态检索方法，其特征在于，所述步骤1中所述的特征提取包括如下步骤：步骤1.1、当文本数据为输入模态数据时，图像数据即为目标模态数据，反之亦然；步骤1.2、针对不同模态的数据采用不同的方法提取特征：图像数据特征通过VGG-16、FCN方法进行提取；文本模态数据通过word2vec方法进行特征提取；对于图像和文本数据，提取后的特征均以向量方式表示。3.如权利要求1所述的基于生成对抗网络的跨模态检索方法，其特征在于，所述步骤2中所述的建立和训练GAN模型包括如下步骤：步骤2.1、使用基于Tensorflow框架的方法搭建GAN网络模型；步骤2.2、使用训练集数据对GAN模型进行训练，得到GAN模型的各种参数。4.如权利要求3所述的基于生成对抗网络的跨模态检索方法，其特征在于，所述步骤2.2中所述使用训练集数据对GAN模型进行训练包括如下步骤：步骤2.2.1、初始化判别器的参数θd和生成器的参数θg；步骤2.2.2、训练GAN中的判别器：将目标模态数据集送入判别器并进行训练，判别器对输入数据学习以获取其语义信息；步骤2.2.3、训练GAN中的生成器：将某种模态数据作为输入模...

【专利技术属性】
技术研发人员：刘立波，徐峰，程晓龙，郑斌，郭进祥，
申请(专利权)人：宁夏大学，
类型：发明
国别省市：宁夏,64

全部详细技术资料下载我是这个专利的主人