一种基于字典学习的对抗跨模态检索方法和系统技术方案

技术编号：20272850 阅读：36 留言：0更新日期：2019-02-02 03:46

本发明专利技术公开了一种基于字典学习的对抗跨模态检索方法和系统，该方法包括：获取图像数据和文本数据的底层特征，并基于底层特征分别构造图像和文本的训练集以及测试集；构建字典学习模型，基于图像和文本的训练集进行训练，根据得到的图像字典、文本字典，构造新的训练集和测试集；将所述新的图像和文本的训练集投影至共同表示空间；根据共同表示空间中的图像和文本特征数据，学习特征保持器，即进行特征判别和三重排序，以及学习模态分类器；对特征保持器和模态分类器进行对抗学习，优化共同表示空间，采用测试集进行跨模态检索。用字典学习来进行特征提取，用对抗学习更好的学习图像模态和文本模态的公共空间，能极大提高跨模态检索的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于字典学习的对抗跨模态检索方法和系统
本专利技术涉及跨模态检索领域和深度学习领域，更具体地说，涉及一种基于字典学习的对抗跨模态检索方法和系统。
技术介绍
随着互联网技术的飞速发展，多模态数据(如文本、图像、音频和视频)层出不穷，传统的单模态检索已经无法满足用户的需求。跨模态检索因其可以实现多种模态信息的融合和补充，正逐步成为信息检索的主流。因为多模态数据底层特征不同，具有复杂的组织结构，并且大多数是非结构化或半结构化的，因此多模态数据很难结构化的存储或检索。为了解决多模态数据之间的异构鸿沟，国内外的学者从浅层学习和深度学习两个方面进行了大量研究。联合特征选择和子空间学习方法(JFSSL)通过学习投影矩阵把不同模态的数据映射到共同空间，实现了异构数据的相似性度量。通过对投影矩阵施加l2范数的约束，同时从不同特征空间中选择出相关的且具有判别性的特征。并通过图正则化的方法保持了数据模态间和模态内的相关性。通用的半监督结构化子空间学习(GSS-SL)将标签损失函数和标签的图约束融合到最终的目标函数中，前者可以在一定程度上保证相同类别数据之间的距离最小，不同类别数据之间的距离最大，后者可以预测未标记数据的标签。此外，浅层学习的方法还包括模态独立的跨媒体检索(MDCR)、三视图典型相关分析(CCA-3V)、联合潜在子空间学习和回归(JLSLR)等。因其对数据具有强大的非线性相关建模能力，深度学习方法近几年在跨模态检索领域发展迅猛。生成对抗网络(GANs)因为不需要马尔科夫链并能生成高质量的样本，尤其受到研究者的喜爱。GANs可以胜任真实数据生成任务，如图像生成和...

【技术保护点】
1.一种基于字典学习的对抗跨模态检索方法，其特征在于，包括以下步骤：获取图像数据和文本数据的底层特征，并基于所述底层特征分别构造图像和文本的训练集以及测试集；构建字典学习模型，基于图像和文本的训练集进行训练，根据得到的图像字典、文本字典，构造新的训练集和测试集；将所述新的图像和文本的训练集投影至共同表示空间；根据共同表示空间中的图像和文本特征数据，学习特征保持器，即进行特征判别和三重排序，以及学习模态分类器；对特征保持器和模态分类器进行对抗学习，优化共同表示空间，采用测试集进行跨模态检索。

【技术特征摘要】
1.一种基于字典学习的对抗跨模态检索方法，其特征在于，包括以下步骤：获取图像数据和文本数据的底层特征，并基于所述底层特征分别构造图像和文本的训练集以及测试集；构建字典学习模型，基于图像和文本的训练集进行训练，根据得到的图像字典、文本字典，构造新的训练集和测试集；将所述新的图像和文本的训练集投影至共同表示空间；根据共同表示空间中的图像和文本特征数据，学习特征保持器，即进行特征判别和三重排序，以及学习模态分类器；对特征保持器和模态分类器进行对抗学习，优化共同表示空间，采用测试集进行跨模态检索。2.如权利要求1所述的一种基于字典学习的对抗跨模态检索方法，其特征在于，所述构造新的训练集和测试集包括：训练字典学习模型得到图像字典、文本字典、图像重构系数和文本重构系数；根据所述图像字典和文本字典，计算测试集的图像重构系数和文本重构系数；将训练集的图像重构系数和文本重构系数，以及测试集的图像重构系数和文本重构系数的转置形式作为新的图像和文本的训练集以及测试集。3.如权利要求2所述的一种基于字典学习的对抗跨模态检索方法，其特征在于，所述训练字典学习模型包括：利用训练集中的样本构建如下的目标函数：其中，和分别表示图像模态和文本模态的字典，k1和k2分别代表图像字典和文本字典的大小，取值分别为4096、5000；和分别表示图像和文本的重构系数；c表示常量，和分别表示图像字典和文本字典第i行第j列的原子；其中，P1和P2是投影矩阵，λ1，λ2，λ3是权重参数。4.如权利要求3所述的一种基于字典学习的对抗跨模态检索方法，其特征在于，所述计算测试集的图像重构系数和文本重构系数的方法为：和分别为测试集的图像和文本重构系数。5.如权利要求1所述的一种基于字典学习的对抗跨模态检索方法，其特征在于，所述投影至共同表示空间包括：图像的训练集采用四层前馈全连接...

【专利技术属性】
技术研发人员：张化祥，尚菲，李静，刘丽，孟丽丽，谭艳艳，王强，
申请(专利权)人：山东师范大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人