基于图神经网络结构建模的图像与文本检索方法技术

技术编号：24613509 阅读：19 留言：0更新日期：2020-06-24 01:09

本发明专利技术公开了一种基于图神经网络结构建模的图像与文本检索方法，应用注意力机制表示图片、文本中抽取的细粒度视觉、文本元素可以更好地为计算图片、文本相似度；利用视觉、文本元素自适应地构建图结构，并用图卷积的方法更新特征，可以更好地考虑视觉、文本元素模态内和模态间的关系；在不同图片与文本对之间，视觉、文本元素对齐过程中引入约束机制，也有利于细粒度的文本元素对应到相应的图片区域，进而提高图片、文本层级相似度计算的可靠性，提高图片、文本检索的准确率。

Image and text retrieval based on graph neural network structure modeling

全部详细技术资料下载

【技术实现步骤摘要】
基于图神经网络结构建模的图像与文本检索方法
本专利技术涉及多媒体检索
，尤其涉及一种基于图神经网络结构建模的图像与文本检索方法。
技术介绍
随着海量多媒体数据涌入互联网，跨越多种不同模态数据(视觉、文本、语音等)的多媒体检索技术扮演着越来越重要的角色。传统的图像检索技术往往是使用标签检索图片。该过程往往是单向的，且只能利用离散的标签数据。图像与文本双向的检索蕴含更丰富的语义，也更符合人类使用自然语言的习惯。然而，视觉、文本两个不同模态的数据间存在着很大差异。为了实现图像与文本的跨模态检索，需要很好得融合计算机视觉与自然语言理解。最近，基于深度学习的图像与文本跨模态检索方法主要是将图像和文本都映射到统一的嵌入空间，并比较视觉数据和语言数据之间的全局相似性，最后输出检索结果。然而，这些方法很少考虑细粒度的视觉元素、文本元素之间的对齐。这限制了图像和文本整体的相似性计算，影响最终的检索准确率。
技术实现思路
本专利技术的目的是提供一种基于图神经网络结构建模的图像与文本检索方法，能够获得较高的图片、文本检索准确率。本专利技术的目的是通过以下技术方案实现的：一种基于图神经网络结构建模的图像与文本检索方法，包括：训练阶段：提取单个图片与文本对的视觉元素与初始文本元素，并引入注意力机制重新表示每个文本元素；将单个图片与文本对的视觉元素与重新表示的文本元素作为节点，自适应的构建图结构，并利用图卷积的方法，更新各个节点；结合更新后的文本元素计算每一初始文本元素的自相关性...

【技术保护点】
1.一种基于图神经网络结构建模的图像与文本检索方法，其特征在于，包括：/n训练阶段：提取单个图片与文本对的视觉元素与初始文本元素，并引入注意力机制重新表示每个文本元素；将单个图片与文本对的视觉元素与重新表示的文本元素作为节点，自适应的构建图结构，并利用图卷积的方法，更新各个节点；结合更新后的文本元素计算每一初始文本元素的自相关性，作不同图片与文本对中视觉元素与文本元素的对齐约束；同时汇聚初始文本元素的自相关性来衡量整个文本与整个图片的相似性，从而按相似性大小生成检索排序结果；利用元素对齐过程的损失以及检索排序的损失函数构建总损失函数；/n测试阶段：对于输入的待检测图片，提取对应的视觉元素，并结合数据库中文本数据，采用与训练阶段相同的方式，计算各文本数据的初始文本元素的自相关性，从而计算各文本数据与待检测图片的相似性；对于输入的待检测文本，提取对应的初始文本元素，并结合数据库中图片数据，采用与训练阶段相同的方式，计算待检测文本的初始文本元素的自相关性，从而计算待检测文本与图片的相似性；根据相似性大小进行排序得到检索结果。/n

【技术特征摘要】
1.一种基于图神经网络结构建模的图像与文本检索方法，其特征在于，包括：
训练阶段：提取单个图片与文本对的视觉元素与初始文本元素，并引入注意力机制重新表示每个文本元素；将单个图片与文本对的视觉元素与重新表示的文本元素作为节点，自适应的构建图结构，并利用图卷积的方法，更新各个节点；结合更新后的文本元素计算每一初始文本元素的自相关性，作不同图片与文本对中视觉元素与文本元素的对齐约束；同时汇聚初始文本元素的自相关性来衡量整个文本与整个图片的相似性，从而按相似性大小生成检索排序结果；利用元素对齐过程的损失以及检索排序的损失函数构建总损失函数；
测试阶段：对于输入的待检测图片，提取对应的视觉元素，并结合数据库中文本数据，采用与训练阶段相同的方式，计算各文本数据的初始文本元素的自相关性，从而计算各文本数据与待检测图片的相似性；对于输入的待检测文本，提取对应的初始文本元素，并结合数据库中图片数据，采用与训练阶段相同的方式，计算待检测文本的初始文本元素的自相关性，从而计算待检测文本与图片的相似性；根据相似性大小进行排序得到检索结果。

2.根据权利要求1所述的一种基于图神经网络结构建模的图像与文本检索方法，其特征在于，提取单个图片与文本对的视觉元素与初始文本元素包括：
对于给定图片I，利用FasterR-CNN提取图片I的多个区域的视觉特征F＝{f1,f2,...,fn}，接着用全连接层，将特征F映射到嵌入空间，表示为V＝{v1,v2,...,vn}；其中，n为图片中有明确语义信息的区域或者目标的数目；
对于文本T，先将句子中的每个单词用嵌入向量表示，再利用bi-GRU把它们映射到嵌入空间，表示为E＝{e1,e2,...,ek}，其中，k为单词数目。

3.根据权利要求2所述的一种基于图神经网络结构建模的图像与文本检索方法，其特征在于，所述引入注意力机制重新表示每个文本元素包括：
对于初始文本元素ej，引入注意力机制重新重新表示为：其中，j＝1,...,k，αij是初始文本元素ej与视觉元素vi间的注意力系数，由V＝{v1,v2,...,vn}和E＝{e1,e2,...,ek}的相似度矩阵计算求...

【专利技术属性】
技术研发人员：张勇东，张天柱，魏曦，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人