基于分层度量学习的跨模态信息检索方法技术

技术编号：30651269 阅读：197 留言：0更新日期：2021-11-04 01:11

本发明专利技术公开了一种基于分层度量学习的跨模态信息检索方法，其实现步骤为：(1)建立训练集；(2)构建分层度量学习网络；(3)训练分层度量学习网络；(4)利用图像检索文本；(5)利用文本检索图像。本发明专利技术构建了与标签层数相等的多个分层度量学习子网络组成分层度量学习网络，采用了特征嵌入模块对图像样本和文本样本进行实值特征表示学习，使得最终分层度量学习网络学习到的特征能包含层次标签的所有标签信息，学习到的图像特征和文本特征具有更高的数值精度，提高了跨模态信息检索的精度，增强了跨模态信息检索过程中数据特征结构的稳定性。跨模态信息检索过程中数据特征结构的稳定性。跨模态信息检索过程中数据特征结构的稳定性。

全部详细技术资料下载

【技术实现步骤摘要】
基于分层度量学习的跨模态信息检索方法

[0001]本专利技术涉及信息检索
，更进一步涉及图像文本信息检索
的一种基于分层度量学习的跨模态信息检索方法。本专利技术可应用于图像、文本两种模态数据的信息检索，实现具有层次标签数据模态内部及模态间的精确检索。

技术介绍

[0002]近些年来，多模态数据量飞速增长，由多层标签所标注的跨模态数据的数量也在不断增加。然而目前很多的跨模态信息检索方法只针对具有单层标签数据，在对不同模态数据进行相似性度量的时候只能利用最底层的标签信息，其上层的标签信息将会被舍弃从而丢失一部分的先验信息，使得生成的图像和文本特征缺少一部分的类间判别信息。传统的哈希方法在解决具有层次标签数据的跨模态信息检索问题时会出现在二值化的过程中有精度损失的问题。如何针对上述问题建立模型，在度量数据之间相似度时能最大程度地利用其层次标签信息以及最大程度地提高检索精度是当前信息检索
亟需解决的问题。
[0003]Venice Erin Liong，Jiwen Lu，Yap
‑
Peng Tan，Jie Zhou在其发表的论文“Deep Coupled Metric Learning for Cross
‑
Modal Matching”(IEEE TRANSACTIONS ON MULTIMEDIA，2017)中提出了一种用于跨模态信息检索领域的度量学习方法。该方法利用两个两层的深度网络分别将原始的图像特征和文本特征映射到同一个嵌入空间，并且对映射后的特征进行相...

【技术保护点】

【技术特征摘要】
1.一种基于分层度量学习的跨模态信息检索方法，其特征在于，构建分层度量学习网络，将层次标签的信息输入到网络中进行特征学习；该检索方法的步骤包括如下：步骤1，建立训练集：(1a)选取至少15000个图像文本对组成训练样本集；(1b)对训练样本集中的每对图像文本中的图像和文本分别进行层次标签的标注，标签层数至少两层；(1c)将标注后的图像样本裁剪成大小为224
×
224像素值的图像；(1d)将标注后的文本样本生成对应的文本特征样本；(1e)将层次标签标注后的已裁剪图像样本和文本特征样本组成训练集；步骤2，构建分层度量学习网络：(2a)搭建一个图像特征嵌入模块，其结构依次为，第一卷积层，第一最大池化层，第二卷积层，第二最大池化层，第三卷积层，第四卷积层，第五卷积层，第三最大池化层，第一全连接层，第二全连接层，第三全连接层，第四全连接层，第五全连接层；设置图像特征嵌入模块各层的参数如下：将第一至第五卷积层的卷积核大小分别设置为：11
×
11
×3×
64、5
×5×
64
×
256、3
×3×
256
×
256、3
×3×
256
×
256、3
×3×
256
×
256，步长分别设置为：4、1、1、1、1；将第一至第五全连接层的神经元数目分别设置为：4096、4096、2048、1024、100；第一至第三最大池化层的窗口大小均设置为3
×
3；(2b)搭建一个由两个卷积层串联的文本特征嵌入模块；将第一至第二卷积层的卷积核大小分别设置为：1
×
m
×1×
8192、1
×1×
8192
×
100，步长均设置为1，其中，m表示文本特征的维度；(2c)搭建一个由三个全连接层串联组成的模态分类模块；将第一至第三全连接层的神经元数目分别设置为：50、25、2；(2d)将图像特征嵌入模块的第五全连接层分别与全连接层和模态分类模块相连，将文本特征嵌入模块的第二卷积层分别与全连接层和模态分类模块相连，构成分层度量学习子网络；其中全连接层神经元的总数与其对应标签维度数相等；(2e)构建与标签层数相等的多个分层度量学习子网络组成分层度量学习网络；步骤3，训练分层度量学习网络：(3a)从训练集中随机选取64个由图像样本和文本特征样本组成的样本对输入到分层度量学习网络中，使用Adam优化算法，优化更新分层度量学习网络的网络参数；(3b)判断分层度量学习网络的总损失函数的值是否收敛；若是，则得到训练好的分层度量学习网络后执行步骤(4)，否则，执行步骤(3a)；步骤4，利用图像检索文本：(4a)采用与步骤(1c)相同的方法，对每个待检索的图像样本进行处理后输入到训练好的分...

【专利技术属性】
技术研发人员：王笛，田玉敏，王泉，丁阿强，万波，罗雪梅，王义峰，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人