基于受限文本空间的多步自注意力跨媒体检索方法及系统技术方案

技术编号:21184683 阅读:27 留言:0更新日期:2019-05-22 15:17
本发明专利技术公布了一种基于受限文本空间的多步自注意力跨媒体检索方法及检索系统,通过构建相对固定的词汇表的受限文本空间,再将非受限文本空间转换成受限文本空间;通过特征提取网络提取受限文本空间的图像特征和文本特征;特征包括全局特征、区域特征集合及关联特征;将提取得到的特征送入特征映射网络,并通过多步自注意力机制提取图像和文本之间物体层次的共享信息;再通过相似性度量网络汇总各时刻有用信息来衡量图像和文本之间的相似度,并计算三元组损失函数;由此实现基于受限文本空间的多步自注意力跨媒体检索。本发明专利技术通过引入多步自注意力机制和关联特征,大幅度提升了跨媒体检索召回率。

Multi-step Self-attention Cross-media Retrieval Method and System Based on Constrained Text Space

The invention discloses a multi-step self-attention cross-media retrieval method and retrieval system based on restricted text space, which converts the unconstrained text space into restricted text space by constructing a relatively fixed vocabulary restricted text space, extracts image features and text features of restricted text space through feature extraction network, and features include global features and regional feature sets. Combining related features; putting the acquired features into feature mapping network and extracting object-level shared information between images and texts through multi-step self-attention mechanism; then measuring similarity between images and texts by aggregating useful information at all times through similarity measurement network, and calculating triple loss function; thus realizing multi-step self-annotation based on restricted text space Intentional cross-media retrieval. The invention greatly improves the recall rate of cross-media retrieval by introducing a multi-step self-attention mechanism and correlation features.

【技术实现步骤摘要】
基于受限文本空间的多步自注意力跨媒体检索方法及系统
本专利技术涉及计算机视觉与信息检索
,尤其涉及一种基于受限文本空间的多步自注意力跨媒体检索方法及系统。
技术介绍
近年来,随着信息技术的飞速发展,互联网上的多媒体数据越来越丰富,不同模态的多媒体数据(文本,图像,音频,视频等)可以用于表达相似的内容。为了满足用户日益增长的多媒体检索需求,人们提出了跨媒体检索任务,用于找到一个同构的语义空间(公共空间,文本空间,图像空间),使得底层异构的多媒体数据之间的相似性能够被直接衡量。更确切的说,这个跨媒体检索任务的核心问题能够被细分成两个子问题。第一个子问题是如何学习得到有效的底层特征表示。在跨媒体检索领域中,多数传统方法仅通过全局特征表示图像和文本,比如卷积神经网络(CNN)最后全连接层的输出或者循环神经网络(RNN)最后时刻的隐藏层输出。全局特征包含较多的冗余信息,也被称作模态内部的专属信息。这种信息仅存在于模态内部,并且在模态之间互不共享。这也就导致了跨媒体检索质量的下降。因此,部分学者尝试提取图像和文本的局部特征(图像物体区域,文本单词),再通过注意力机制找到两者之间的共享信息,从而减少冗余特征带来的影响。然而,现有的基于注意力机制的方法大都只考虑了图像和文本之间物体层次的共享信息,没有考虑物体之间的交互信息。第二个子问题是如何找到一个合适的同构特征空间。同构空间的选择大致有三种,分别是公共空间,文本空间和图像空间。现有的方法通常将异构特征非线性映射至一个潜在的公共空间,从而不同模态数据之间的相似度能够被直接衡量。然而,与图像的基于像素的特征相比,文本特征更容易被人类理解,传递的信息也更为准确。例如,给定一张图像,人脑首先会根据其内容凝练出描述语句,然后根据这些描述去检索语义相似的文本。因此,为了模拟人脑的认知方式,该方法探索了在文本空间进行跨媒体检索的可行性。现有的基于文本空间的跨媒体检索方法没有考虑人脑对于图像的认知过程,它们大都采用Word2Vec空间作为最终的文本空间。图像在该空间的特征表示通过图像中物体的类别信息组合得到的。因此,该特征会丢失图像中蕴含着的丰富的交互信息。这也表明,对于跨媒体检索来说,Word2Vec空间并不是一个有效的文本特征空间。文本空间本质上是一个向量空间,由一系列不同的汉字和单词构成。对于中文来说,汉字的数量并没有准确的数字,大约将近十万个(北京国安咨询设备公司汉字字库收入有出处的汉字91251个)。与此同时,大量涌现的新词使得文本空间的规模不断增长。除了中文,类似的情况也出现在包括英语在内的其它语言中。据不完全统计,现有的英语单词数量已经超过了百万,并且每年仍以几千的速度增长。因此,自然语言本质上是发散的。基于这种发散的特性,构建一个完备的不受限制的文本空间几乎是不可能完成的。然而,在大部分情况下,人们只需掌握其中一部分的汉字和单词就能够满足自身的日常需求。例如,很多英语语言学家认为约3650个最基本的常用英语词汇就能完成表达思想和交际任务的95%以上;原国家教育委员会于1987年11月联合发布的《现代汉语常用字典》提出,现代汉语常用字为2500个,占日常使用汉语的99%以上。近年来,注意力机制开始引起越来越多研究者的注意。注意力机制最开始被应用在“序列-序列”的模型中,比如机器翻译和图像题注。它包含三种比较常用的形式:1)加性注意力机制,2)乘积注意力机制和3)自注意力机制。如果在跨媒体检索算法中采用加性或者乘积自注意力机制,则图像和文本的重点关注信息无法固定,从而造成图像和文本编码的不确定性,影响算法的实际应用价值。比如,给定一个数据集,包含10张图像和10个与图像一一对应的文本,那么加性或乘积自注意力机制会为每张图像和每个文本分别生成10种不同的重点关注信息(分别对应10个文本和10张图像),即图像(文本)的重点关注信息由对应的文本(图像)决定。然而,考虑到跨媒体检索算法的实际应用价值,模型必须保证图像和文本的编码唯一性。因此,自注意力机制更为适合跨媒体检索。自注意力机制可以引导图像和文本自己找到数据内部的重点关注信息,并且保证它的固定。
技术实现思路
为了克服上述现有技术存在的问题,本专利技术提出了一种基于受限文本空间的多步自注意力跨媒体检索方法及检索系统。该方法通过模拟人脑认知的方式学习得到受限文本空间,并且引入了多步自注意力机制和关联特征,大幅度提升了检索召回率。除了客观的评价指标(检索召回率),本专利技术还搭建了一个线上检索Demo系统。通过输入文本或者上传图像,该Demo可以返回对应的检索结果,从而进一步验证了本专利技术的有效性。本专利技术中,受限文本空间指的是具有相对固定的词汇表的文本空间,是相对于非受限文本空间而言的。本专利技术通过构建相对固定的词汇表的受限文本空间,再将非受限文本空间转换成受限文本空间,从而保证算法的收敛性。基于受限文本空间的理解能力受到词汇表大小的影响,即词汇表越大,理解能力越强,词汇表越小,理解能力越弱。经过实验发现,3000左右的单词数量已经能够满足跨媒体检索的基本需求,一味地增加单词数量不仅不会带来检索性能上的提升,还会增加算法在时间和空间上的复杂度。本专利技术通过图像题注模型(imagecaptioning)提取物体之间的交互信息,也被称为关联信息(relationinformation)。图像题注模型本质上是一种“编码-解码”的模型,即给定一张输入图像,它会先通过编码器将其编码成特征向量,再通过解码器将特征向量翻译成恰当的描述文本。由于生成的描述文本中不仅包含图像中的物体类别信息(名词),还包含物体之间的交互信息(动词,形容词),关联信息可以通过编码器生成的特征向量表示。图像题注任务的代表算法是NIC(NeuralImageCaptioning)。采用本专利技术方法提取图像和文本的区域特征(图像物体区域,文本单词),并通过多步自注意力机制找到两者之间的共享信息,从而减少冗余信息的干扰。除了图像和文本的区域特征,本专利技术将两者的全局特征看作多步自注意力机制的全局先验知识,用于实现关键信息的快速定位,并且能够在更快地训练速度下取得更好地实验结果。针对如何找到一个合适的同构特征空间的问题,本专利技术将图像底层特征映射至“受限文本空间”,该空间不仅包含物体的类别信息,也包含丰富的物体之间的交互信息。本专利技术提出的基于受限文本空间的多步自注意力跨媒体检索方法总共包含三个模块,分别是特征提取网络,特征映射网络和相似性度量网络。对于第一个子问题(如何学习得到有效的底层特征表示),特征提取网络用于提取图像和文本的全局特征、区域特征和关联特征。关联特征的提取通过图像题注模型的代表算法NIC实现;对于第二个子问题(如何找到一个合适的同构特征空间),特征映射网络被用于学习得到受限文本空间。借助于多步自注意力机制,特征映射网络可以在不同时刻选择性地关注部分共享信息,并且通过汇总各个时刻有用的信息来提取图像和文本的物体层次的特征。除此之外,它还通过特征融合层,将图像的物体层次的特征与关联特征相融合,并且映射至受限文本空间。为了在更快地训练速度下取得更好地实验结果,本专利技术将图像和文本的全局特征看作多步自注意力机制的全局先验知识,用于实现关键信息的快速定位。最后,相似性度本文档来自技高网
...

【技术保护点】
1.一种基于受限文本空间的多步自注意力跨媒体检索方法,通过构建受限文本空间,再将非受限文本空间转换成受限文本空间;所述受限文本空间指的是具有相对固定的词汇表的文本空间;包括:通过特征提取网络提取图像特征和文本特征;特征包括全局特征、区域特征集合和关联特征;将提取得到的特征送入特征映射网络,并通过多步自注意力机制提取图像和文本之间物体层次的共享特征信息;特征映射网络通过特征融合层将物体层次的共享特征与关联特征相融合,并且映射至受限文本空间;再通过相似性度量网络汇总各时刻有用信息,衡量图像和文本之间的相似度,并计算三元组损失函数;由此实现基于受限文本空间的多步自注意力跨媒体检索。

【技术特征摘要】
1.一种基于受限文本空间的多步自注意力跨媒体检索方法,通过构建受限文本空间,再将非受限文本空间转换成受限文本空间;所述受限文本空间指的是具有相对固定的词汇表的文本空间;包括:通过特征提取网络提取图像特征和文本特征;特征包括全局特征、区域特征集合和关联特征;将提取得到的特征送入特征映射网络,并通过多步自注意力机制提取图像和文本之间物体层次的共享特征信息;特征映射网络通过特征融合层将物体层次的共享特征与关联特征相融合,并且映射至受限文本空间;再通过相似性度量网络汇总各时刻有用信息,衡量图像和文本之间的相似度,并计算三元组损失函数;由此实现基于受限文本空间的多步自注意力跨媒体检索。2.如权利要求1所述基于受限文本空间的多步自注意力跨媒体检索方法,其特征是,受限文本空间采用数据集D表示,设数据集D={D1,D2,…,DI}共有I个样本,每个样本Di包括一张图片i和一段描述文本s,即Di=(i,s),每段文本由多个句子组成,每个句子均独立描述相匹配的图片;所述基于受限文本空间的多步自注意力跨媒体检索方法包括如下步骤:1)通过特征提取网络提取D中图像和文本的区域特征;对于图像,通过预训练的神经网络结构VGG提取图像的全局特征和图像的区域特征集合;通过图像题注模型方法NIC提取物体之间交互信息的关联特征;对于文本,使用未经过预训练的双向长短期记忆循环神经网络LSTM提取文本的全局特征和文本的区域特征集合;LSTM的参数与特征映射网络的参数同步更新;2)将步骤1)提取得到的特征送入特征映射网络;首先,通过多步自注意力机制关注图像和文本区域特征之间物体层次的共享信息;其次,通过特征融合层实现物体层次的共享特征和关联特征的融合,并且映射至受限文本空间;将图像和文本的全局特征作为多步自注意力机制的全局先验知识,用于实现关键信息的快速定位;3)通过相似性度量网络汇总各时刻有用信息,衡量图像和文本之间最终的相似度;相似性衡量函数定义为:sim(v,u)=v·u其中,v和u分别代表受限文本空间中的图像和文本的特征;k时刻二者的相似度sk通过式7计算得到:sk=vk.uk式7通过汇总K时刻有用信息的方式,衡量图像和文本之间最终的相似度S,表示为式8:4)计算三元组损失函数,通过优化该三元组损失函数更新网络参数;三元组损失函数表示为式9:其中,sp是输入图像i的第p个不匹配文本;ip是输入文本s的第p个不匹配图像;m是最小距离间隔,取值为0.3;sim(v,t)是相似性度量函数。3.如权利要求2所述基于受限文本空间的多步自注意力跨媒体检索方法,其特征是,步骤1)中,对于文本s=(s0,s1,…,sN),采用双向LSTM网络提取各个单词的特征,具体表示为式1:其中,xt表示t时刻的输入单词;和分别表示t时刻前向LSTM和后向LSTM的隐藏层的输出;表示当前输入单词的d维特征输出;文本的区域特征集合表示为将双向LSTM网络最后时刻的d维隐藏层输出作为全局特征vglobal;其中,维度d既是文本的特征维度,也是受限文本空间的维度。4.如权利要求2所述基于受限文本空间的多步自注意力跨媒体检索方法,其...

【专利技术属性】
技术研发人员:王文敏余政
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1