基于互补语义对齐和对称检索的图像-文本互检索方法技术

技术编号:20176908 阅读:56 留言:0更新日期:2019-01-23 00:26
本发明专利技术属于计算机视觉与自然语言处理技术领域,公开了一种基于互补语义对齐和对称检索的图像‑文本互检索方法,采用卷积神经网络提取图像的深度视觉特征;利用基于目标的卷积神经网络和基于场景分布的卷积神经网络融合的模型提取深度视觉特征,确保视觉特征包含目标和场景多重互补语义信息;利用长短期记忆网络对文本进行编码,提取出对应的语义特征表示;利用两个映射矩阵分别将视觉特征和文本特征映射到同一个跨模态的嵌入空间中;利用k最近邻的方法,在该跨模态嵌入空间检索,得到检索的初始列表;利用基于互近邻的方法对称双向检索的邻近关系,对初始检索列表进行重排序,得到最终的检索等级列表。本发明专利技术具有准确度高的优点。

Image-Text Mutual Retrieval Based on Complementary Semantic Alignment and Symmetric Retrieval

The invention belongs to the field of computer vision and natural language processing technology, and discloses an image-text mutual retrieval method based on complementary semantic alignment and symmetrical retrieval, using convolution neural network to extract image depth visual features, and using the model of fusion of convolution neural network based on object and convolution neural network based on scene distribution to extract depth visual features to ensure vision. Sensory features include multiple complementary semantic information of target and scene; long-term and short-term memory networks are used to encode text and extract corresponding semantic features; two mapping matrices are used to map visual features and text features into the same cross-modal embedding space; k-nearest neighbor method is used to retrieve the cross-modal embedding space and obtain the initial list of retrieval. The initial search list is reordered by using the neighborhood relationship of symmetrical bidirectional search based on mutual nearest neighbor method, and the final search rank list is obtained. The invention has the advantages of high accuracy.

【技术实现步骤摘要】
基于互补语义对齐和对称检索的图像-文本互检索方法
本专利技术属于计算机视觉与自然语言处理
,尤其涉及一种基于互补语义对齐和对称检索的图像-文本互检索方法。
技术介绍
目前,业内常用的现有技术是这样的:图像-语义描述互检索任务旨在给定一张检索图像在文本库中检索出与之相关的文本描述语句,或者给定一句文本描述在图片库中检索出与之对应的图像。具有重要的实际应用意义,例如帮助盲人“看清”世界等;除此之外,该任务还被视为图像理解的一个重大挑战,是计算机视觉中的一个核心问题。因此,图像-语义描述互检索任务是计算机视觉与自然语言处理领域最热门的研究之一。目前,大多数的图像-语义互检索方法主要是在实例水平上进行的,主要检索的是预先定义好的实例,除此之外,还有一些方法是基于类别标签的视觉检索。根据检索方向的不同,图像-语义描述检索主要可以分为两大类。第一类是在视觉空间的单向检索,首先在视觉空间里检索出与检索图像相似的候选图片,然后将这些候选图片对应的语义描述的句子进行重排序,进而得到最终的检索图像的语义描述的检索结果。现有技术一提出了一种基于词组重组的检索方法:给定一张检索图片,他们用分类器或者检本文档来自技高网...

【技术保护点】
1.一种基于互补语义对齐和对称检索的图像‑文本互检索方法,其特征在于,所述基于互补语义对齐和对称检索的图像‑文本互检索方法采用卷积神经网络提取图像的深度视觉特征;利用基于目标的卷积神经网络和基于场景分布的卷积神经网络融合的模型提取深度视觉特征,确保视觉特征包含目标和场景多重互补语义信息;利用长短期记忆网络对文本进行编码,提取出对应的语义特征表示;利用两个映射矩阵分别将视觉特征和文本特征映射到同一个跨模态的嵌入空间中;利用k最近邻的方法,在该跨模态嵌入空间检索,得到检索的初始列表;利用基于互近邻的方法对称双向检索的邻近关系,对初始检索列表进行重排序,得到最终的检索等级列表。

【技术特征摘要】
1.一种基于互补语义对齐和对称检索的图像-文本互检索方法,其特征在于,所述基于互补语义对齐和对称检索的图像-文本互检索方法采用卷积神经网络提取图像的深度视觉特征;利用基于目标的卷积神经网络和基于场景分布的卷积神经网络融合的模型提取深度视觉特征,确保视觉特征包含目标和场景多重互补语义信息;利用长短期记忆网络对文本进行编码,提取出对应的语义特征表示;利用两个映射矩阵分别将视觉特征和文本特征映射到同一个跨模态的嵌入空间中;利用k最近邻的方法,在该跨模态嵌入空间检索,得到检索的初始列表;利用基于互近邻的方法对称双向检索的邻近关系,对初始检索列表进行重排序,得到最终的检索等级列表。2.如权利要求1所述的基于互补语义对齐和对称检索的图像-文本互检索方法,其特征在于,所述基于互补语义对齐和对称检索的图像-文本互检索方法包括以下步骤:步骤一,利用多种预训练好的CNN提取多重图像视觉特征;将包含不同语义信息的多重图像视觉特征融合,得到最终的图像深度视觉特征;步骤二,用长短期记忆网络对文本进行编码,提取文本语义特征;步骤三,将上述得到的图像视觉特征和文本语义特征映射到同一个跨模态的嵌入空间中;步骤四,在该跨模态嵌入空间中,进行k最近邻检索,得到初始的检索排序列表;再利用互为近邻的检索方法,对初始排序列表进行重排序,得到最终的检索结果。3.如权利要求2所述的基于互补语义对齐和对称检索的图像-文本互检索方法,其特征在于,所述步骤一具体包括:(1)用目标图像数据库预训练卷积神经网络,用该卷积神经网络提取出包含图像目标信息的深度视觉特征φobj;(2)用场景图像数据库预训练卷积神经网络,用该卷积神经网络提取出包含图像场景上下文信息的深度视觉特征φsce;(3)可用不同的神经网络提取深度图像特征,取VGG网络fc7层的输出,ResNet152网络pool5层的输出,DenseNet161网络的normal5层输出作为视觉图像特征表示;将这两种包含不同的语义信息的图像深度视觉特征进行如下融合:φmulti=[Norm(φobj),Norm(φsce)];得到最终的基于多信息融合的图像视觉特征表示。4.如权利要求2所述的基于互补语义对齐和对称检索的图像-文本互检索方法,其特征在于,所述步骤二具体包括:(1)构建词字典,将句子中的每个单词用独热向量表示,该独热向量设为m维;用word2vec算法将每个单词的独热向量映射成一个n维的词向量;(2)将句子中的每个单词对应的n...

【专利技术属性】
技术研发人员:田春娜姜萌萌高新波刘恒张相南王秀美
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1