一种基于深度辨识度迁移的跨模态检索方法技术

技术编号：30432598 阅读：39 留言：0更新日期：2021-10-24 17:27

本发明专利技术公开了一种基于深度辨识度迁移的跨模态检索方法，属于信息检索技术领域。所述方法在学习不同模态数据公共表示特征的过程中，通过最小化解码向量与文本原始特征间的重建损失增强文本公共表示特征的语义辨识度，同时通过权重共享层的模态不变损失和样本相关性损失将文本公共表示特征的语义高辨识度迁移到图片公共表示特征，从而为各模态数据习得高语义辨识度的公共表示特征，进而提升了检索性能。性能。性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度辨识度迁移的跨模态检索方法

[0001]本专利技术涉及一种基于深度辨识度迁移的跨模态检索方法，属于信息检索

技术介绍

[0002]跨模态检索旨在跨越不同模态实现信息检索，即可以根据任意查询模态的样本返回与该查询样本相关的其他模态的检索结果，比如，根据查询文本输出对应的图片检索结果。近年来，深度学习在跨模态检索领域进展巨大，相继提出了一系列基于深度学习的跨模态检索方法。这些跨模态深度方法通过深度自编码、生成对抗等方式挖掘不同模态数据间的关联信息，弥合多模态数据模态内的语义鸿沟和模态间的异构鸿沟，学习语义一致的公共表示特征。
[0003]然而，现有的跨模态深度方法都忽略了不同模态数据间的语义辨识度的差异，因而导致其检索精确度有待于进一步的提高。

技术实现思路

[0004]为了解决现有的基于深度学习的跨模态检索方法对多模态数据的语义辨识度差异性考虑不足导致的检索精确度低的问题，本专利技术提供一种基于深度辨识度迁移的跨模态检索方法。所述方法包括：
[0005]步骤S1，构建深度辨识度迁移网络，所述深度辨识度迁移网络包括原始多模态特征提取模块、文本辨识度迁移模块以及文本辨识度增强模块，各模块依次连接；
[0006]步骤S2，采用公共数据集训练所构建的深度辨识度迁移网络，所述公共数据集包含n个图片文本对；
[0007]步骤S3，利用训练好的深度辨识度迁移网络获得待检索图片或文本的最优公共表示特征，并采用余弦距离度量待检索图片或文本的最优公共表示特征与数据库中各...

【技术保护点】

【技术特征摘要】
1.一种基于深度辨识度迁移的跨模态检索方法，其特征在于，所述方法包括：步骤S1，构建深度辨识度迁移网络，所述深度辨识度迁移网络包括原始多模态特征提取模块、文本辨识度迁移模块以及文本辨识度增强模块，各模块依次连接；步骤S2，采用公共数据集训练所构建的深度辨识度迁移网络，所述公共数据集包含n个图片文本对；步骤S3，利用训练好的深度辨识度迁移网络获得待检索图片或文本的最优公共表示特征，并采用余弦距离度量待检索图片或文本的最优公共表示特征与数据库中各图片或文本的公共表示特征间的距离，得到相似度矩阵，根据相似度矩阵输出相应的跨模态检索结果。2.根据权利要求1所述的方法，其特征在于，所述方法在训练所构建的深度辨识度迁移网络时，首先提取公共数据集中图片的原始特征和文本的原始特征，并根据图片的原始特征和文本的原始特征分别学习对应图片公共表示特征U＝[u1,u2,
…
u
n
]和文本公共表示特征V＝[v1,v2,
…
v
n
]；然后设定语义约束函数J3和重构损失函数J4对文本公共表示特征V的语义辨识度进行增强；设定模态不变损失函数J1和样本相关性损失函数J2将增强后的文本公共表示特征的语义高辨识度迁移到了图片公共表示特征，增强图片公共表示特征的语义辨识度，训练过程中最小化总目标函数J并采用Adam模型进行参数更新，不断迭代从而得到训练好的的深度辨识度迁移网络，所述总目标函数J由模态不变损失函数J1、样本相关性损失函数J2、语义约束函数J3和重构损失函数J4共同构成；其中u
i
表示图片i的公共表示特征向量，v
j
表示文本j的公共表示特征向量，i＝1,2,
……
,n；j＝1,2,
……
,n。3.根据权利要求2所述的方法，其特征在于，所述原始多模态特征提取模块由两个对称特征提取部分构成，分别用于提取图片和文本的原始特征，得到图片原始特征矩阵H
α
和文本原始特征矩阵H
β
；所述文本辨识度迁移模块由图片公共表示特征学习模块和文本公共表示特征学习模块组成；二者均由两个激活函数为ReLU的全连接层组成，且二者的最后一层全连接层共享权重，称为共享权重层；所述文本辨识度增强模块由文本公共表示特征的线性分类器与文本公共表示特征的解码模块组成；其中文本公共表示特征的线性分类器为一层全连接，文本公共表示特征的解码模块包含两层激活函数为ReLU的全连接。4.根据权利要求3所述的方法，其特征在于，所述方法在得到图片原始特征矩阵H
α
和文本原始特征矩阵H
β
后，还包括：在共享权重层定义模态不变损失函数J1和样本相关性损失函数J2；其中，||
·
||
F
表示F范数；
其中，表示图片i的公共表示特征和文本j的公共表示特征之间的余弦相似度，u
i
表示图片i的公共表示特征向量，v
j
表示文本j的公共表示特征向量；表示图片i的公共表示特征和图片j的公共表示特征...

【专利技术属性】
技术研发人员：陈莹，代瑾，化春键，李祥明，胡蒙，裴佩，
申请(专利权)人：江南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人