The invention discloses a multi-step self-attention cross-media retrieval method and retrieval system based on restricted text space, which converts the unconstrained text space into restricted text space by constructing a relatively fixed vocabulary restricted text space, extracts image features and text features of restricted text space through feature extraction network, and features include global features and regional feature sets. Combining related features; putting the acquired features into feature mapping network and extracting object-level shared information between images and texts through multi-step self-attention mechanism; then measuring similarity between images and texts by aggregating useful information at all times through similarity measurement network, and calculating triple loss function; thus realizing multi-step self-annotation based on restricted text space Intentional cross-media retrieval. The invention greatly improves the recall rate of cross-media retrieval by introducing a multi-step self-attention mechanism and correlation features.
【技术实现步骤摘要】
基于受限文本空间的多步自注意力跨媒体检索方法及系统
本专利技术涉及计算机视觉与信息检索
,尤其涉及一种基于受限文本空间的多步自注意力跨媒体检索方法及系统。
技术介绍
近年来,随着信息技术的飞速发展,互联网上的多媒体数据越来越丰富,不同模态的多媒体数据(文本,图像,音频,视频等)可以用于表达相似的内容。为了满足用户日益增长的多媒体检索需求,人们提出了跨媒体检索任务,用于找到一个同构的语义空间(公共空间,文本空间,图像空间),使得底层异构的多媒体数据之间的相似性能够被直接衡量。更确切的说,这个跨媒体检索任务的核心问题能够被细分成两个子问题。第一个子问题是如何学习得到有效的底层特征表示。在跨媒体检索领域中,多数传统方法仅通过全局特征表示图像和文本,比如卷积神经网络(CNN)最后全连接层的输出或者循环神经网络(RNN)最后时刻的隐藏层输出。全局特征包含较多的冗余信息,也被称作模态内部的专属信息。这种信息仅存在于模态内部,并且在模态之间互不共享。这也就导致了跨媒体检索质量的下降。因此,部分学者尝试提取图像和文本的局部特征(图像物体区域,文本单词),再通过注意力机制找到两者之间的共享信息,从而减少冗余特征带来的影响。然而,现有的基于注意力机制的方法大都只考虑了图像和文本之间物体层次的共享信息,没有考虑物体之间的交互信息。第二个子问题是如何找到一个合适的同构特征空间。同构空间的选择大致有三种,分别是公共空间,文本空间和图像空间。现有的方法通常将异构特征非线性映射至一个潜在的公共空间,从而不同模态数据之间的相似度能够被直接衡量。然而,与图像的基于像素的特征相比,文本 ...
【技术保护点】
1.一种基于受限文本空间的多步自注意力跨媒体检索方法,通过构建受限文本空间,再将非受限文本空间转换成受限文本空间;所述受限文本空间指的是具有相对固定的词汇表的文本空间;包括:通过特征提取网络提取图像特征和文本特征;特征包括全局特征、区域特征集合和关联特征;将提取得到的特征送入特征映射网络,并通过多步自注意力机制提取图像和文本之间物体层次的共享特征信息;特征映射网络通过特征融合层将物体层次的共享特征与关联特征相融合,并且映射至受限文本空间;再通过相似性度量网络汇总各时刻有用信息,衡量图像和文本之间的相似度,并计算三元组损失函数;由此实现基于受限文本空间的多步自注意力跨媒体检索。
【技术特征摘要】
1.一种基于受限文本空间的多步自注意力跨媒体检索方法,通过构建受限文本空间,再将非受限文本空间转换成受限文本空间;所述受限文本空间指的是具有相对固定的词汇表的文本空间;包括:通过特征提取网络提取图像特征和文本特征;特征包括全局特征、区域特征集合和关联特征;将提取得到的特征送入特征映射网络,并通过多步自注意力机制提取图像和文本之间物体层次的共享特征信息;特征映射网络通过特征融合层将物体层次的共享特征与关联特征相融合,并且映射至受限文本空间;再通过相似性度量网络汇总各时刻有用信息,衡量图像和文本之间的相似度,并计算三元组损失函数;由此实现基于受限文本空间的多步自注意力跨媒体检索。2.如权利要求1所述基于受限文本空间的多步自注意力跨媒体检索方法,其特征是,受限文本空间采用数据集D表示,设数据集D={D1,D2,…,DI}共有I个样本,每个样本Di包括一张图片i和一段描述文本s,即Di=(i,s),每段文本由多个句子组成,每个句子均独立描述相匹配的图片;所述基于受限文本空间的多步自注意力跨媒体检索方法包括如下步骤:1)通过特征提取网络提取D中图像和文本的区域特征;对于图像,通过预训练的神经网络结构VGG提取图像的全局特征和图像的区域特征集合;通过图像题注模型方法NIC提取物体之间交互信息的关联特征;对于文本,使用未经过预训练的双向长短期记忆循环神经网络LSTM提取文本的全局特征和文本的区域特征集合;LSTM的参数与特征映射网络的参数同步更新;2)将步骤1)提取得到的特征送入特征映射网络;首先,通过多步自注意力机制关注图像和文本区域特征之间物体层次的共享信息;其次,通过特征融合层实现物体层次的共享特征和关联特征的融合,并且映射至受限文本空间;将图像和文本的全局特征作为多步自注意力机制的全局先验知识,用于实现关键信息的快速定位;3)通过相似性度量网络汇总各时刻有用信息,衡量图像和文本之间最终的相似度;相似性衡量函数定义为:sim(v,u)=v·u其中,v和u分别代表受限文本空间中的图像和文本的特征;k时刻二者的相似度sk通过式7计算得到:sk=vk.uk式7通过汇总K时刻有用信息的方式,衡量图像和文本之间最终的相似度S,表示为式8:4)计算三元组损失函数,通过优化该三元组损失函数更新网络参数;三元组损失函数表示为式9:其中,sp是输入图像i的第p个不匹配文本;ip是输入文本s的第p个不匹配图像;m是最小距离间隔,取值为0.3;sim(v,t)是相似性度量函数。3.如权利要求2所述基于受限文本空间的多步自注意力跨媒体检索方法,其特征是,步骤1)中,对于文本s=(s0,s1,…,sN),采用双向LSTM网络提取各个单词的特征,具体表示为式1:其中,xt表示t时刻的输入单词;和分别表示t时刻前向LSTM和后向LSTM的隐藏层的输出;表示当前输入单词的d维特征输出;文本的区域特征集合表示为将双向LSTM网络最后时刻的d维隐藏层输出作为全局特征vglobal;其中,维度d既是文本的特征维度,也是受限文本空间的维度。4.如权利要求2所述基于受限文本空间的多步自注意力跨媒体检索方法,其...
【专利技术属性】
技术研发人员:王文敏,余政,
申请(专利权)人:北京大学深圳研究生院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。