一种图文跨媒体检索方法技术

技术编号:25599172 阅读:17 留言:0更新日期:2020-09-11 23:56
本发明专利技术公开一种图文跨媒体检索方法。本发明专利技术通过提取输入图像的图像特征V,对输入句子进行编码得到词级别表示S

【技术实现步骤摘要】
一种图文跨媒体检索方法
本专利技术属于自然语言理解
,具体涉及一种图文跨媒体检索方法。
技术介绍
跨媒体检索是指用户给定一个媒体的查询信息,可以检索出语义相关的其他媒体的信息。目前,跨媒体检索的方法分为两大类:一类是基于共同语义空间学习的方法;另一类是基于跨模态特征融合的方法。基于共同语义空间学习的方法,其本质在于对齐不同模态数据的分布和特征表示。其中,传统经典的相关分析是此类方法的基础。典型相关分析CCA(CanonicalCorrelationAnalysis)是最为经典的方法。正因为在跨媒体检索中,数据常常是成对出现的,CCA将这些成对出现的数据投影到相同的子空间中,使其距离最小化、相似性最大化。CCA是一种无监督类方法,因为其没有用到数据的类别标签。有学者尝试将标签信息加入到CCA中,使用分析方法得到各个模态在公共空间的线性投影,再对不同模态数据做逻辑回归。由于不同媒体数据所含信息量不对等,基于共同语义空间学习的方法可能损失部分信息或者引入噪声。基于跨模态特征融合的方法,其本质在于捕捉跨媒体数据间复杂的关联关系。特征融合分析类方法主要是构造一个多路径的模型,每个不同的路径用于提取各自模态的语义特征,利用深度神经网络对这些特征进行融合分析,挖掘各个模态间的潜在关系得到相似度。可使用多模态长短记忆网络挖掘句子和图像的潜在语义关系,通过调节注意力机制来选择语义更相关的多模态数据作为训练对象,将多个时间步长内的局部相似性与隐层状态融合,以获得最终匹配分数作为所需的全局相似度。有学者提出将多模态双线性映射模型(MCB)用于融合图像视觉和文本信息,模型中的注意力机制和多个MCB使得模型在视觉问答领域有很大的提升。基于跨模态特征融合的方法,对复杂关联关系挖掘不充分。虽然基于注意力机制的跨模态特征融合方法可以获取更复杂的关系,但缺乏层次化特征间多对多的关联关系。
技术实现思路
为了解决现有技术中存在的上述问题,本专利技术提出一种基于图文层次化信息交互的跨媒体检索方法。为实现上述目的,本专利技术采用如下技术方案:一种图文跨媒体检索方法,包括以下步骤:步骤1,按区域提取输入图像的图像特征V={v1,v2,…,vN},vn为第n个区域的图像特征,n=1,2,…,N,N为图像特征的数量;步骤2,利用双向GRU对输入句子S进行编码,得到S的词级别表示为第t个词的词向量表示,t=1,2,…,T,T为词的数量;步骤3,将Sw输入卷积神经网络CNN得到S的短语级别表示为第t个词的短语向量表示,t=1,2,…,T,T为词的数量;步骤4,分别计算Sw、Sp与V的相似度,将得到的两个相似度进行融合得到输入文本与图像的相似度,根据相似度大小进行匹配检索。与现有技术相比,本专利技术具有以下有益效果:本专利技术通过提取输入图像的图像特征V,对输入句子进行编码得到词级别表示Sw,将Sw输入卷积神经网络CNN得到短语级别表示Sp,分别计算Sw、Sp与V的相似度,将得到的两个相似度进行融合得到输入文本与图像的相似度,实现了图文跨媒体检索。本专利技术采用文本对图像的注意力引导,通过计算文本在词级别和短语级别上与图像的相似度,并对两个相似度进行融合得到文本与图像的相似度,提高了检索的准确度。附图说明图1为本专利技术实施例一种图文跨媒体检索方法的流程图。具体实施方式下面结合附图对本专利技术作进一步详细说明。本专利技术实施例一种图文跨媒体检索方法,流程图如图1所示,所述方法包括以下步骤:S101、按区域提取输入图像的图像特征V={v1,v2,…,vN},vn为第n个区域的图像特征,n=1,2,…,N,N为图像特征的数量;S102、利用双向GRU(GatedRecurrentUnit,门控循环单元)对输入句子S进行编码,得到S的词级别表示为第t个词的词向量表示,t=1,2,…,T,T为词的数量;S103、将Sw输入卷积神经网络CNN得到S的短语级别表示为第t个词的短语向量表示,t=1,2,…,T,T为词的数量;S104、分别计算Sw、Sp与V的相似度,将得到的两个相似度进行融合得到输入文本与图像的相似度,根据相似度大小进行匹配检索。本实施例是一种基于图文层次化信息交互的跨媒体检索方法。观察到文本与图像的局部细粒度语义匹配并不是简单的一个词与图像中的一个区域的对应,更多的是文本中的短语与图像中的区域之间的对应关系。本实施例首先进行图像上的区域特征表示;然后提取文本的层次语义信息,包括词级别和短语级别;最后基于局部注意力机制的细粒度特征融合技术,进行图像和文本特征之间的相似性计算。在本实施例中,步骤S101主要用于按区域提取图像特征。每个特征对应于图像中的一个区域。可采用Anderson等人在VisualGenomes数据集上预训练好的Faster-RCNN模型进行图像特征提取。在本实施例中,步骤S102主要用于词级别表示输入文本。输入句子为one-hot表示的词语组成的句子,利用双向GRU对输入句子S进行编码,可表示为Bi_GRU(S),得到文本词级别的向量表示上标“w”表示词级别。GRU是循环神经网络(RecurrentNeuralNetwork,RNN)的一种,是为了解决长期记忆和反向传播中的梯度等问题而提出来的。GRU输入输出的结构与普通的RNN相似,其中的内部结构与LSTM(Long-ShortTermMemory,长短时记忆网络)相似,与LSTM相比,GRU内部少了一个门控函数,参数比LSTM少,却也能够达到与LSTM相当的功能。考虑到硬件的计算能力和时间成本,因而很多时候会选择使用GRU。在本实施例中,步骤S103主要用于短语级别表示输入文本。将上一步得到的词级别的向量表示Sw输入卷积神经网络CNN,得到S的短语级别表示上标“p”表示短语级别。CNN是一类包含卷积计算且具有深度结构的前馈神经网络,其隐含层包含卷积层、池化层和全连接层三类常见构筑。卷积层和池化层为卷积神经网络特有。卷积层的功能是对输入数据进行特征提取,其内部包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量,类似于一个前馈神经网络的神经元。在本实施例中,步骤S104主要用于进行图文匹配检索。本实施例基于不同级别的文本表示与图像特征V进行匹配。具体地,分别计算Sw、Sp与V的相似度,将得到的两个相似度进行融合得到输入文本与图像的相似度,最后根据相似度大小进行匹配检索。由于基于不同级别的文本表示与图像进行匹配,因此可以提高匹配准确度。作为一种可选实施例,所述S103具体包括:通过CNN对Sw进行卷积核大小分别为1、2、3的一维卷积运算,提取文本特征,第t个词的卷积公式如下:式中,和分别为对第t个词、第t个词及后面1个词和第t个词及后面连续2个词卷积结果,和为权重参数;对和进行最大池化操作,得到第t个词的短语级别的向量表示:本实施例给出了由输本文档来自技高网
...

【技术保护点】
1.一种图文跨媒体检索方法,其特征在于,包括以下步骤:/n步骤1,按区域提取输入图像的图像特征V={v

【技术特征摘要】
1.一种图文跨媒体检索方法,其特征在于,包括以下步骤:
步骤1,按区域提取输入图像的图像特征V={v1,v2,…,vN},vn为第n个区域的图像特征,n=1,2,…,N,N为图像特征的数量;
步骤2,利用双向GRU对输入句子S进行编码,得到S的词级别表示为第t个词的词向量表示,t=1,2,…,T;T为词的数量;
步骤3,将Sw输入卷积神经网络CNN得到S的短语级别表示为第t个词的短语向量表示,t=1,2,…,T,T为词的数量;
步骤4,分别计算Sw、Sp与V的相似度,将得到的两个相似度进行融合得到输入文本与图像的相似度,根据相似度大小进行匹配检索。


2.根据权利要求1所述的图文跨媒体检索方法,其特征在于,所述步骤3具体包括:
通过CNN对Sw进行卷积核大小分别为1、2、3的一维卷积运算,提取文本特征,第t个词的卷积公式如下:









式中,...

【专利技术属性】
技术研发人员:王春辉胡勇
申请(专利权)人:拾音智能科技有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1