基于图神经网络结构建模的图像与文本检索方法技术

技术编号:24613509 阅读:19 留言:0更新日期:2020-06-24 01:09
本发明专利技术公开了一种基于图神经网络结构建模的图像与文本检索方法,应用注意力机制表示图片、文本中抽取的细粒度视觉、文本元素可以更好地为计算图片、文本相似度;利用视觉、文本元素自适应地构建图结构,并用图卷积的方法更新特征,可以更好地考虑视觉、文本元素模态内和模态间的关系;在不同图片与文本对之间,视觉、文本元素对齐过程中引入约束机制,也有利于细粒度的文本元素对应到相应的图片区域,进而提高图片、文本层级相似度计算的可靠性,提高图片、文本检索的准确率。

Image and text retrieval based on graph neural network structure modeling

【技术实现步骤摘要】
基于图神经网络结构建模的图像与文本检索方法
本专利技术涉及多媒体检索
,尤其涉及一种基于图神经网络结构建模的图像与文本检索方法。
技术介绍
随着海量多媒体数据涌入互联网,跨越多种不同模态数据(视觉、文本、语音等)的多媒体检索技术扮演着越来越重要的角色。传统的图像检索技术往往是使用标签检索图片。该过程往往是单向的,且只能利用离散的标签数据。图像与文本双向的检索蕴含更丰富的语义,也更符合人类使用自然语言的习惯。然而,视觉、文本两个不同模态的数据间存在着很大差异。为了实现图像与文本的跨模态检索,需要很好得融合计算机视觉与自然语言理解。最近,基于深度学习的图像与文本跨模态检索方法主要是将图像和文本都映射到统一的嵌入空间,并比较视觉数据和语言数据之间的全局相似性,最后输出检索结果。然而,这些方法很少考虑细粒度的视觉元素、文本元素之间的对齐。这限制了图像和文本整体的相似性计算,影响最终的检索准确率。
技术实现思路
本专利技术的目的是提供一种基于图神经网络结构建模的图像与文本检索方法,能够获得较高的图片、文本检索准确率。本专利技术的目的是通过以下技术方案实现的:一种基于图神经网络结构建模的图像与文本检索方法,包括:训练阶段:提取单个图片与文本对的视觉元素与初始文本元素,并引入注意力机制重新表示每个文本元素;将单个图片与文本对的视觉元素与重新表示的文本元素作为节点,自适应的构建图结构,并利用图卷积的方法,更新各个节点;结合更新后的文本元素计算每一初始文本元素的自相关性,作不同图片与文本对中视觉元素与文本元素的对齐约束;同时汇聚初始文本元素的自相关性来衡量整个文本与整个图片的相似性,从而按相似性大小生成检索排序结果;利用元素对齐过程的损失以及检索排序的损失函数构建总损失函数;测试阶段:对于输入的待检测图片,提取对应的视觉元素,并结合数据库中文本数据,采用与训练阶段相同的方式,计算各文本数据的初始文本元素的自相关性,从而计算各文本数据与待检测图片的相似性;对于输入的待检测文本,提取对应的初始文本元素,并结合数据库中图片数据,采用与训练阶段相同的方式,计算待检测文本的初始文本元素的自相关性,从而计算待检测文本与图片的相似性;根据相似性大小进行排序得到检索结果。由上述本专利技术提供的技术方案可以看出,在注意力机制下把图片、文本表示为细粒度的视觉、文本元素,可以发现所有潜在的视觉、文本元素对齐;自适应的构造了图结构,更好地考虑到了视觉、文本元素同一模态数据内部、不同模态数据间的关系;在不同的图片与文本对中,对文本元素增加了约束条件,使文本元素能更好地对齐到相应的视觉元素。准确、全面的视觉、文本元素细粒度对齐,使得该方法能够更好地衡量图片、文本层级的相似度,取得更高的图片、文本检索准确率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种基于图神经网络结构建模的图像与文本检索方法的流程图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种基于图神经网络结构建模的图像与文本检索方法,如图1所示,为整个方法的流程,训练与测试阶段的主要过程是相同的,具体来说:训练阶段:提取单个图片与文本对的视觉元素与初始文本元素,并引入注意力机制重新表示每个文本元素;将单个图片与文本对的视觉元素与重新表示的文本元素作为节点,自适应的构建图结构,并利用图卷积的方法,更新各个节点;结合更新后的文本元素计算每一初始文本元素的自相关性,作不同图片与文本对中视觉元素与文本元素的对齐约束;同时汇聚初始文本元素的自相关性来衡量整个文本与整个图片的相似性,从而按相似性大小生成检索排序结果;利用元素对齐过程的损失以及检索排序的损失函数构建总损失函数;测试阶段:对于输入的待检测图片,提取对应的视觉元素,并结合数据库中文本数据,采用与训练阶段相同的方式,计算各文本数据的初始文本元素的自相关性,从而计算各文本数据与待检测图片的相似性;对于输入的待检测文本,提取对应的初始文本元素,并结合数据库中图片数据,采用与训练阶段相同的方式,计算待检测文本的初始文本元素的自相关性,从而计算待检测文本与图片的相似性;根据相似性大小进行排序得到相应的检索结果。本专利技术实施例提供的上述方法,是一种细粒度的图像、文本检索方法,该方法对图片、文本中进行细粒度的视觉、文本元素表示;在单个图片与文本对中,进行了细粒度视觉、文本元素关系提取及对齐;不同图片与文本对之间,进行了视觉、文本元素对齐的约束机制。这样可以充分考虑到图片中各个区域,文本中各个单词之间细粒度的对齐关系,很好得计算出给定相应图片和文本对的相似度,并给出检索结果。该方法可以应用于互联网多媒体应用的数据库,对用户的图片/文本检索请求做出反馈。在实施上,能够以软件方式安装于公司的后台服务器,对大批量的图片与文本数据进行相似度计算,对检索图片或文本返回最相似的结果。下面针对训练阶段与测试阶段进行详细的介绍。一、训练阶段。1、将单个图片与文本对的视觉特征与文本特征映射到同一空间,得到视觉元素与初始文本元素,并引入注意力机制重新表示每个文本元素。本步骤主要是通过注意力机制实现视觉、文本元素(图片区域/目标、文本单词/字)的细粒度表示与对齐。对于给定图片I,利用FasterR-CNN(一种基于卷积神经网络CNN的通用目标检测算法)提取图片I的多个区域的视觉特征F={f1,f2,...,fn},接着用全连接层,将特征F映射到嵌入空间,表示为V={v1,v2,...,vn};其中,n为图片中有明确语义信息的区域(目标)的数目。本领域技术人员可以理解,明确语义信息的区域是指相应区域的语义信息是已知的且明确的,例如,明确语义信息可以是猫、房子等;即,明确语义信息的区域可是圈出了一只猫的区域,圈出了一栋房子的区域等。对于文本T,先将句子中的每个单词用嵌入向量表示,再利用bi-GRU(双向门控循环单元网络,一种基于循环神经网络RNN的通用自然语言处理网络)把它们映射到嵌入空间,表示为E={e1,e2,...,ek},其中,k为单词数目。之后,对于初始文本元素ej表示为:其中,j=1,...,k,αij是文本元素ej与视觉元素vi间的注意力系数,由V={v1,v2,...,vn}和E={e1,e2,...,ek}的相似度矩阵计算求出。2、将单个图片与文本对的视觉元素与重新表示的文本元素作为输入,自适应的构建图结构,将元素作为节点,将节点之间的余弦相本文档来自技高网...

【技术保护点】
1.一种基于图神经网络结构建模的图像与文本检索方法,其特征在于,包括:/n训练阶段:提取单个图片与文本对的视觉元素与初始文本元素,并引入注意力机制重新表示每个文本元素;将单个图片与文本对的视觉元素与重新表示的文本元素作为节点,自适应的构建图结构,并利用图卷积的方法,更新各个节点;结合更新后的文本元素计算每一初始文本元素的自相关性,作不同图片与文本对中视觉元素与文本元素的对齐约束;同时汇聚初始文本元素的自相关性来衡量整个文本与整个图片的相似性,从而按相似性大小生成检索排序结果;利用元素对齐过程的损失以及检索排序的损失函数构建总损失函数;/n测试阶段:对于输入的待检测图片,提取对应的视觉元素,并结合数据库中文本数据,采用与训练阶段相同的方式,计算各文本数据的初始文本元素的自相关性,从而计算各文本数据与待检测图片的相似性;对于输入的待检测文本,提取对应的初始文本元素,并结合数据库中图片数据,采用与训练阶段相同的方式,计算待检测文本的初始文本元素的自相关性,从而计算待检测文本与图片的相似性;根据相似性大小进行排序得到检索结果。/n

【技术特征摘要】
1.一种基于图神经网络结构建模的图像与文本检索方法,其特征在于,包括:
训练阶段:提取单个图片与文本对的视觉元素与初始文本元素,并引入注意力机制重新表示每个文本元素;将单个图片与文本对的视觉元素与重新表示的文本元素作为节点,自适应的构建图结构,并利用图卷积的方法,更新各个节点;结合更新后的文本元素计算每一初始文本元素的自相关性,作不同图片与文本对中视觉元素与文本元素的对齐约束;同时汇聚初始文本元素的自相关性来衡量整个文本与整个图片的相似性,从而按相似性大小生成检索排序结果;利用元素对齐过程的损失以及检索排序的损失函数构建总损失函数;
测试阶段:对于输入的待检测图片,提取对应的视觉元素,并结合数据库中文本数据,采用与训练阶段相同的方式,计算各文本数据的初始文本元素的自相关性,从而计算各文本数据与待检测图片的相似性;对于输入的待检测文本,提取对应的初始文本元素,并结合数据库中图片数据,采用与训练阶段相同的方式,计算待检测文本的初始文本元素的自相关性,从而计算待检测文本与图片的相似性;根据相似性大小进行排序得到检索结果。


2.根据权利要求1所述的一种基于图神经网络结构建模的图像与文本检索方法,其特征在于,提取单个图片与文本对的视觉元素与初始文本元素包括:
对于给定图片I,利用FasterR-CNN提取图片I的多个区域的视觉特征F={f1,f2,...,fn},接着用全连接层,将特征F映射到嵌入空间,表示为V={v1,v2,...,vn};其中,n为图片中有明确语义信息的区域或者目标的数目;
对于文本T,先将句子中的每个单词用嵌入向量表示,再利用bi-GRU把它们映射到嵌入空间,表示为E={e1,e2,...,ek},其中,k为单词数目。


3.根据权利要求2所述的一种基于图神经网络结构建模的图像与文本检索方法,其特征在于,所述引入注意力机制重新表示每个文本元素包括:
对于初始文本元素ej,引入注意力机制重新重新表示为:其中,j=1,...,k,αij是初始文本元素ej与视觉元素vi间的注意力系数,由V={v1,v2,...,vn}和E={e1,e2,...,ek}的相似度矩阵计算求...

【专利技术属性】
技术研发人员:张勇东张天柱魏曦
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1