当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于深度辨识度迁移的跨模态检索方法技术

技术编号:30432598 阅读:39 留言:0更新日期:2021-10-24 17:27
本发明专利技术公开了一种基于深度辨识度迁移的跨模态检索方法,属于信息检索技术领域。所述方法在学习不同模态数据公共表示特征的过程中,通过最小化解码向量与文本原始特征间的重建损失增强文本公共表示特征的语义辨识度,同时通过权重共享层的模态不变损失和样本相关性损失将文本公共表示特征的语义高辨识度迁移到图片公共表示特征,从而为各模态数据习得高语义辨识度的公共表示特征,进而提升了检索性能。性能。性能。

【技术实现步骤摘要】
一种基于深度辨识度迁移的跨模态检索方法


[0001]本专利技术涉及一种基于深度辨识度迁移的跨模态检索方法,属于信息检索


技术介绍

[0002]跨模态检索旨在跨越不同模态实现信息检索,即可以根据任意查询模态的样本返回与该查询样本相关的其他模态的检索结果,比如,根据查询文本输出对应的图片检索结果。近年来,深度学习在跨模态检索领域进展巨大,相继提出了一系列基于深度学习的跨模态检索方法。这些跨模态深度方法通过深度自编码、生成对抗等方式挖掘不同模态数据间的关联信息,弥合多模态数据模态内的语义鸿沟和模态间的异构鸿沟,学习语义一致的公共表示特征。
[0003]然而,现有的跨模态深度方法都忽略了不同模态数据间的语义辨识度的差异,因而导致其检索精确度有待于进一步的提高。

技术实现思路

[0004]为了解决现有的基于深度学习的跨模态检索方法对多模态数据的语义辨识度差异性考虑不足导致的检索精确度低的问题,本专利技术提供一种基于深度辨识度迁移的跨模态检索方法。所述方法包括:
[0005]步骤S1,构建深度辨识度迁移网络,所述深度辨识度迁移网络包括原始多模态特征提取模块、文本辨识度迁移模块以及文本辨识度增强模块,各模块依次连接;
[0006]步骤S2,采用公共数据集训练所构建的深度辨识度迁移网络,所述公共数据集包含n个图片文本对;
[0007]步骤S3,利用训练好的深度辨识度迁移网络获得待检索图片或文本的最优公共表示特征,并采用余弦距离度量待检索图片或文本的最优公共表示特征与数据库中各图片或文本的公共表示特征间的距离,得到相似度矩阵,根据相似度矩阵输出相应的跨模态检索结果。
[0008]可选的,所述方法在训练所构建的深度辨识度迁移网络时,首先提取公共数据集中图片的原始特征和文本的原始特征,并根据图片的原始特征和文本的原始特征分别学习对应图片公共表示特征U=[u1,u2,

u
n
]和文本公共表示特征V=[v1,v2,

v
n
];然后设定语义约束函数J3和重构损失函数J4对文本公共表示特征V的语义辨识度进行增强;设定模态不变损失函数J1和样本相关性损失函数J2将增强后的文本公共表示特征的语义高辨识度迁移到了图片公共表示特征,增强图片公共表示特征的语义辨识度,训练过程中最小化总目标函数J并采用Adam模型进行参数更新,不断迭代从而得到训练好的的深度辨识度迁移网络,所述总目标函数J由模态不变损失函数J1、样本相关性损失函数J2、语义约束函数J3和重构损失函数J4共同构成;
[0009]其中u
i
表示图片i的公共表示特征向量,v
j
表示文本j的公共表示特征向量,i=1,
2,
……
,n;j=1,2,
……
,n。
[0010]可选的,所述原始多模态特征提取模块由两个对称特征提取部分构成,分别用于提取图片和文本的原始特征,得到图片原始特征矩阵H
α
和文本原始特征矩阵H
β

[0011]所述文本辨识度迁移模块由图片公共表示特征学习模块和文本公共表示特征学习模块组成;二者均由两个激活函数为ReLU的全连接层组成,且二者的最后一层全连接层共享权重,称为共享权重层;
[0012]所述文本辨识度增强模块由文本公共表示特征的线性分类器与文本公共表示特征的解码模块组成;其中文本公共表示特征的线性分类器为一层全连接,文本公共表示特征的解码模块包含两层激活函数为ReLU的全连接。
[0013]可选的,所述方法在得到图片原始特征矩阵H
α
和文本原始特征矩阵H
β
后,还包括:
[0014]在共享权重层定义模态不变损失函数J1和样本相关性损失函数J2;
[0015][0016]其中,||
·
||
F
表示F范数;
[0017][0018]其中,表示图片i的公共表示特征和文本j的公共表示特征之间的余弦相似度,u
i
表示图片i的公共表示特征向量,v
j
表示文本j的公共表示特征向量;表示图片i的公共表示特征和图片j的公共表示特征之间的余弦相似度,表示文本i的公共表示特征和文本j的公共表示特征之间的余弦相似度,1{
·
}为指示函数;
[0019]将图片原始特征矩阵H
α
和文本原始特征矩阵H
β
送入文本辨识度迁移模块获得对应的图片公共表示特征U和文本公共表示特征V。
[0020]可选的,所述方法还包括:
[0021]利用所述线性分类器预测公共子空间的文本公共表示特征的语义类别,并增加语义约束函数J3:
[0022][0023]其中,P
T
V为文本模态样本生成的预测类别向量,Y为真实类别标签;
[0024]文本公共表示特征的解码模块通过一个欠完备自编码器对文本公共表示特征V中
的每一个文本公共表示特征v
i
进行解码,得到对应的文本解码特征进而得到文本解码特征矩阵
[0025]定义重构损失函数J4,利用重构损失函数J4最小化文本解码特征向量与文本原始特征向量之间的距离:
[0026][0027]设定深度辨识度迁移的跨模态检索方法的总目标函数为:
[0028]J=λ1J1+λ2J2+λ3J3+λ4J4[0029]其中,λ1、λ2、λ3、λ4是平衡超参,分别表示模态不变损失、样本相关性损失、文本语义损失以及文本解码特征重构损失的重要程度
[0030]最小化网络总目标函数J并采用Adam模型进行参数更新,不断迭代从而得到训练好的的深度辨识度迁移网络;其中线性分类器的更新公式为P=(VV
T
)
‑1V
T
Y。
[0031]可选的,所述方法步骤S2中所采用的公共数据集包括Wikipedia数据集和Pascal Sentence数据集。
[0032]可选的,所述平衡超参λ1、λ2、λ3、λ4设置为λ1=1、λ2=1、λ3=25、λ4=1。
[0033]可选的,所述图片公共表示特征学习模块和文本公共表示特征学习模块的两个激活函数为ReLU的全连接层隐藏单元数分别为2048和1024。
[0034]可选的,所述方法还包括:
[0035]获得Wikipedia数据集对应的标签矩阵Y={y1,y2,

y
n
},Wikipedia数据集中每一图片文本对相应的标签向量y
i
=[y
1i
,y
2i
,

,y
ci
]∈R
10

[0036]获得Pascal Sentence数据集对应的标签矩阵Y={y1,y2,

y<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度辨识度迁移的跨模态检索方法,其特征在于,所述方法包括:步骤S1,构建深度辨识度迁移网络,所述深度辨识度迁移网络包括原始多模态特征提取模块、文本辨识度迁移模块以及文本辨识度增强模块,各模块依次连接;步骤S2,采用公共数据集训练所构建的深度辨识度迁移网络,所述公共数据集包含n个图片文本对;步骤S3,利用训练好的深度辨识度迁移网络获得待检索图片或文本的最优公共表示特征,并采用余弦距离度量待检索图片或文本的最优公共表示特征与数据库中各图片或文本的公共表示特征间的距离,得到相似度矩阵,根据相似度矩阵输出相应的跨模态检索结果。2.根据权利要求1所述的方法,其特征在于,所述方法在训练所构建的深度辨识度迁移网络时,首先提取公共数据集中图片的原始特征和文本的原始特征,并根据图片的原始特征和文本的原始特征分别学习对应图片公共表示特征U=[u1,u2,

u
n
]和文本公共表示特征V=[v1,v2,

v
n
];然后设定语义约束函数J3和重构损失函数J4对文本公共表示特征V的语义辨识度进行增强;设定模态不变损失函数J1和样本相关性损失函数J2将增强后的文本公共表示特征的语义高辨识度迁移到了图片公共表示特征,增强图片公共表示特征的语义辨识度,训练过程中最小化总目标函数J并采用Adam模型进行参数更新,不断迭代从而得到训练好的的深度辨识度迁移网络,所述总目标函数J由模态不变损失函数J1、样本相关性损失函数J2、语义约束函数J3和重构损失函数J4共同构成;其中u
i
表示图片i的公共表示特征向量,v
j
表示文本j的公共表示特征向量,i=1,2,
……
,n;j=1,2,
……
,n。3.根据权利要求2所述的方法,其特征在于,所述原始多模态特征提取模块由两个对称特征提取部分构成,分别用于提取图片和文本的原始特征,得到图片原始特征矩阵H
α
和文本原始特征矩阵H
β
;所述文本辨识度迁移模块由图片公共表示特征学习模块和文本公共表示特征学习模块组成;二者均由两个激活函数为ReLU的全连接层组成,且二者的最后一层全连接层共享权重,称为共享权重层;所述文本辨识度增强模块由文本公共表示特征的线性分类器与文本公共表示特征的解码模块组成;其中文本公共表示特征的线性分类器为一层全连接,文本公共表示特征的解码模块包含两层激活函数为ReLU的全连接。4.根据权利要求3所述的方法,其特征在于,所述方法在得到图片原始特征矩阵H
α
和文本原始特征矩阵H
β
后,还包括:在共享权重层定义模态不变损失函数J1和样本相关性损失函数J2;其中,||
·
||
F
表示F范数;
其中,表示图片i的公共表示特征和文本j的公共表示特征之间的余弦相似度,u
i
表示图片i的公共表示特征向量,v
j
表示文本j的公共表示特征向量;表示图片i的公共表示特征和图片j的公共表示特征...

【专利技术属性】
技术研发人员:陈莹代瑾化春键李祥明胡蒙裴佩
申请(专利权)人:江南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1