基于分层度量学习的跨模态信息检索方法技术

技术编号:30651269 阅读:197 留言:0更新日期:2021-11-04 01:11
本发明专利技术公开了一种基于分层度量学习的跨模态信息检索方法,其实现步骤为:(1)建立训练集;(2)构建分层度量学习网络;(3)训练分层度量学习网络;(4)利用图像检索文本;(5)利用文本检索图像。本发明专利技术构建了与标签层数相等的多个分层度量学习子网络组成分层度量学习网络,采用了特征嵌入模块对图像样本和文本样本进行实值特征表示学习,使得最终分层度量学习网络学习到的特征能包含层次标签的所有标签信息,学习到的图像特征和文本特征具有更高的数值精度,提高了跨模态信息检索的精度,增强了跨模态信息检索过程中数据特征结构的稳定性。跨模态信息检索过程中数据特征结构的稳定性。跨模态信息检索过程中数据特征结构的稳定性。

【技术实现步骤摘要】
基于分层度量学习的跨模态信息检索方法


[0001]本专利技术涉及信息检索
,更进一步涉及图像文本信息检索
的一种基于分层度量学习的跨模态信息检索方法。本专利技术可应用于图像、文本两种模态数据的信息检索,实现具有层次标签数据模态内部及模态间的精确检索。

技术介绍

[0002]近些年来,多模态数据量飞速增长,由多层标签所标注的跨模态数据的数量也在不断增加。然而目前很多的跨模态信息检索方法只针对具有单层标签数据,在对不同模态数据进行相似性度量的时候只能利用最底层的标签信息,其上层的标签信息将会被舍弃从而丢失一部分的先验信息,使得生成的图像和文本特征缺少一部分的类间判别信息。传统的哈希方法在解决具有层次标签数据的跨模态信息检索问题时会出现在二值化的过程中有精度损失的问题。如何针对上述问题建立模型,在度量数据之间相似度时能最大程度地利用其层次标签信息以及最大程度地提高检索精度是当前信息检索
亟需解决的问题。
[0003]Venice Erin Liong,Jiwen Lu,Yap

Peng Tan,Jie Zhou在其发表的论文“Deep Coupled Metric Learning for Cross

Modal Matching”(IEEE TRANSACTIONS ON MULTIMEDIA,2017)中提出了一种用于跨模态信息检索领域的度量学习方法。该方法利用两个两层的深度网络分别将原始的图像特征和文本特征映射到同一个嵌入空间,并且对映射后的特征进行相似度的约束,使得学习到的特征具有以下特点:同一类别数据的嵌入特征之间的距离小于一个阈值,不同类别数据的嵌入特征之间的距离大于一个阈值。但是,该方法仍然存在的不足之处是,该方法在对具有多层标签的数据集进行处理的时候只能利用最底层的标签,无法利用上层标签的先验信息,生成的特征缺少一部分的类间判别信息,使得该方法应用到多层标签数据的检索情形时检索性能不佳。
[0004]山东大学在其申请的专利文献“利用标签层次信息的多媒体数据跨模态信息检索方法及系统”(申请号:2020107717010,申请公布号:CN 111930972 A)中提出了一种利用标签层次信息的多媒体数据跨模态信息检索方法。该方法具体步骤如下:首先利用预先训练好的卷积神经网络CNN对图像数据进行特征提取,得到图像数据对应的哈希码。然后利用预先训练好的多层感知器MLP模型对文本数据进行特征提取,得到文本数据对应的哈希码。最后将第一模态哈希码与预存储的第二模态的所有多媒体数据对应的已知哈希码进行距离计算;选择距离最近的若干个哈希码对应的第二模态的多媒体数据,作为检索结果输出。该方法存在的不足之处是,该方法将图像和文本的特征进行了哈希映射,在哈希映射的过程中将特征中的高精度的值映射成

1、0和1这三种值,原有数据特征结构被破坏、损失了映射前数据的精度,从而导致信息检索精度降低的问题。
[0005]综上所述,对于信息检索领域的应用,目前已有的方法仍然存在由于无法利用具有层次标签的跨模态数据的全部标签层次而导致生成的特征缺少部分的类间判别信息,由于使用哈希方法而导致二值化的过程中原有数据特征结构被破坏,出现了精度损失等问
题。

技术实现思路

[0006]本专利技术的目的在于针对上述现有技术的不足,提供一种基于分层度量学习的跨模态信息检索方法。用于解决目前很多的跨模态信息检索方法在处理具有层次标签数据的时候无法使用全部层次标签信息以及传统的哈希方法在解决具有层次标签数据的跨模态信息检索问题时会在二值化的过程中有精度损失的问题。
[0007]实现本专利技术的技术思路是,构建多个分层度量学习子网络,其数量与层次标签的层数相同,每一个分层度量学习子网络对应一层标签;每一个分层度量学习子网络训练过程中使用当前层的标签信息,使得最终分层度量学习网络学习到的特征能包含层次标签的所有标签信息,解决现有技术跨模态信息检索方法无法利用层次标签的全部标签信息的问题。本专利技术采用了特征嵌入模块对图像样本和文本样本进行实值特征表示学习,学习到的图像特征和文本特征具有更高的数值精度,解决了现有技术采用了哈希方法解决层次标签数据的跨模态信息检索问题时在二值化过程中原有数据特征结构被破坏、损失了映射前数据精度的问题。
[0008]实现本专利技术的具体步骤包括如下:
[0009](1)建立训练集;
[0010](1a)选取至少15000个图像文本对组成训练样本集;
[0011](1b)对训练样本集中的每对图像文本中的图像和文本分别进行层次标签的标注,标签层数至少两层;
[0012](1c)将标注后的图像样本裁剪成大小为224
×
224像素值的图像;
[0013](1d)将标注后的文本样本生成对应的文本特征样本;
[0014](1e)将层次标签标注后的已裁剪图像样本和文本特征样本组成训练集;
[0015](2)构建分层度量学习网络;
[0016](2a)搭建一个图像特征嵌入模块,其结构依次为,第一卷积层,第一最大池化层,第二卷积层,第二最大池化层,第三卷积层,第四卷积层,第五卷积层,第三最大池化层,第一全连接层,第二全连接层,第三全连接层,第四全连接层,第五全连接层;设置图像特征嵌入模块各层的参数如下:将第一至第五卷积层的卷积核大小分别设置为:11
×
11
×3×
64、5
×5×
64
×
256、3
×3×
256
×
256、3
×3×
256
×
256、3
×3×
256
×
256,步长分别设置为:4、1、1、1、1;将第一至第五全连接层的神经元数目分别设置为:4096、4096、2048、1024、100;第一至第三最大池化层的窗口大小均设置为3
×
3;
[0017](2b)搭建一个由两个卷积层串联的文本特征嵌入模块;将第一至第二卷积层的卷积核大小分别设置为:1
×
m
×1×
8192、1
×1×
8192
×
100,步长均设置为1,其中,m表示文本特征的维度;
[0018](2c)搭建一个由三个全连接层串联组成的模态分类模块;将第一至第三全连接层的神经元数目分别设置为:50、25、2;
[0019](2d)将图像特征嵌入模块的第五全连接层分别与全连接层和模态分类模块相连,将文本特征嵌入模块的第二卷积层分别与全连接层和模态分类模块相连,构成分层度量学习子网络;其中全连接层神经元的总数与其对应标签维度数相等;
[0020](2e)构建与标签层数相等的多个分层度量学习子网络组成分层度量学习网络;
[0021](3)训练分层度量学习网络;
[0022](3a)从训练集中随机选取64个由图像样本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分层度量学习的跨模态信息检索方法,其特征在于,构建分层度量学习网络,将层次标签的信息输入到网络中进行特征学习;该检索方法的步骤包括如下:步骤1,建立训练集:(1a)选取至少15000个图像文本对组成训练样本集;(1b)对训练样本集中的每对图像文本中的图像和文本分别进行层次标签的标注,标签层数至少两层;(1c)将标注后的图像样本裁剪成大小为224
×
224像素值的图像;(1d)将标注后的文本样本生成对应的文本特征样本;(1e)将层次标签标注后的已裁剪图像样本和文本特征样本组成训练集;步骤2,构建分层度量学习网络:(2a)搭建一个图像特征嵌入模块,其结构依次为,第一卷积层,第一最大池化层,第二卷积层,第二最大池化层,第三卷积层,第四卷积层,第五卷积层,第三最大池化层,第一全连接层,第二全连接层,第三全连接层,第四全连接层,第五全连接层;设置图像特征嵌入模块各层的参数如下:将第一至第五卷积层的卷积核大小分别设置为:11
×
11
×3×
64、5
×5×
64
×
256、3
×3×
256
×
256、3
×3×
256
×
256、3
×3×
256
×
256,步长分别设置为:4、1、1、1、1;将第一至第五全连接层的神经元数目分别设置为:4096、4096、2048、1024、100;第一至第三最大池化层的窗口大小均设置为3
×
3;(2b)搭建一个由两个卷积层串联的文本特征嵌入模块;将第一至第二卷积层的卷积核大小分别设置为:1
×
m
×1×
8192、1
×1×
8192
×
100,步长均设置为1,其中,m表示文本特征的维度;(2c)搭建一个由三个全连接层串联组成的模态分类模块;将第一至第三全连接层的神经元数目分别设置为:50、25、2;(2d)将图像特征嵌入模块的第五全连接层分别与全连接层和模态分类模块相连,将文本特征嵌入模块的第二卷积层分别与全连接层和模态分类模块相连,构成分层度量学习子网络;其中全连接层神经元的总数与其对应标签维度数相等;(2e)构建与标签层数相等的多个分层度量学习子网络组成分层度量学习网络;步骤3,训练分层度量学习网络:(3a)从训练集中随机选取64个由图像样本和文本特征样本组成的样本对输入到分层度量学习网络中,使用Adam优化算法,优化更新分层度量学习网络的网络参数;(3b)判断分层度量学习网络的总损失函数的值是否收敛;若是,则得到训练好的分层度量学习网络后执行步骤(4),否则,执行步骤(3a);步骤4,利用图像检索文本:(4a)采用与步骤(1c)相同的方法,对每个待检索的图像样本进行处理后输入到训练好的分...

【专利技术属性】
技术研发人员:王笛田玉敏王泉丁阿强万波罗雪梅王义峰
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1