一种基于图神经网络的图像文本匹配方法组成比例

技术编号:39438835 阅读:8 留言:0更新日期:2023-11-19 16:22
本发明专利技术公开了一种基于图神经网络的图像文本匹配方法,包括以下步骤:获取图像数据和文本数据,并通过注意力计算,分别得到图像表示和文本表示,并将图像表示和文本表示映射至共享嵌入空间;在共享嵌入空间中,将图像表示中的区域特征与文本表示中的词特征对齐;并输入到图神经网络中进行相似度推理,生成相似度矩阵;根据所述相似度矩阵,采用二次重排序算法进行图像到文本检索和文本到图像检索,通过动态三元组损失反向传播来更新网络参数;本发明专利技术通过二次重排序算法,使得模型在检索阶段可以充分利用双向检索的信息,大幅提高文本到图像检测的性能,并且不需要在模型训练中增加额外计算。外计算。外计算。

【技术实现步骤摘要】
一种基于图神经网络的图像文本匹配方法


[0001]本专利技术涉及计算机图文匹配
,更具体的说是涉及一种基于图神经网络的图像文本匹配方法。

技术介绍

[0002]图像文本匹配是指通过输入一个图像或者文本,从数据集中找到相关的文本或者图像,因此,图像文本匹配通常包含了两个子任务:图像到文本匹配和文本到图像匹配。通过研究图像文本匹配技术对于现实中的许多场景都有帮助,可以让人们更好地理解和利用图像信息,提高各种应用场景的效率和便利性。
[0003]目前,图像文本匹配算法模型的损失函数主要使用三元组损失,通过最大化正样本之间的相似度距离、最小化负样本之间的相似度距离来训练模型,这种损失函数虽然可以学到更好的特征表示、对数据分布的适应性很强,但是其在计算时将正样本和负样本看作同等重要,但是在实际情况中,正负样本的权重应该与数据集的情况相关,使用相同权重可能与现实数据有所偏差。其次,由于常用的数据集都是使用一张图像对应五条文本,因此模型对于学习到的图像到文本匹配和文本到图像匹配的两个性能有所差别。
[0004]因此,如何均衡两种性能是本领域技术人员亟需解决的问题。

技术实现思路

[0005]有鉴于此,本专利技术提供了一种基于图神经网络的图像文本匹配方法,实现了双向检索能力的均衡应用。
[0006]为了实现上述目的,本专利技术采用如下技术方案:
[0007]一种基于图神经网络的图像文本匹配方法,包括以下步骤:
[0008]获取图像数据和文本数据,并通过注意力计算,分别得到图像表示和文本表示,并将图像表示和文本表示映射至共享嵌入空间;
[0009]在共享嵌入空间中,将图像表示中的区域特征与文本表示中的词特征对齐,并计算相似度,生成相似度矩阵;
[0010]根据所述相似度矩阵,采用二次重排序算法进行图像到文本检索和文本到图像检索,通过动态三元组损失反向传播来更新网络参数。
[0011]进一步的,所述通过注意力,得到图像表示的步骤为:
[0012]自下而上对图像数据进行注意力计算,得到各个图像区域的注意力系数;
[0013]根据注意力系数提取,提取重点图像区域,得到区域元素;
[0014]将区域元素输入至分类器,识别各个区域元素的图像特征,得到图像数据的图像表示。
[0015]进一步的,所述通过注意力,得到文本表示的步骤为:
[0016]通过维度转换按使文本数据的词嵌入向量维度和图像数据的区域嵌入向量维度维度统一;
[0017]将词嵌入向量输入至循环网络,提取正向上下文词特征和逆向上下文词特征,结合正向上下文词特征和逆向上下文词特征得到文本表示。
[0018]进一步的,所述计算相似度,包括:利用图神经网络分别进行进行全局对齐和局部对齐,计算出图像和文本的全局相似度和局部相似度,将二者融合即可得到总相似度。
[0019]进一步的,所述全局相似度的计算步骤包括:
[0020]构建多模态知识图谱训练神经网络模型,并通过训练好的神经网络模型对区域特征和词特征分别进行推理,得到图谱表示;
[0021]通过图谱表示对输入图像的全局嵌入和输入文本的全局嵌入进行增强,生成多模态知识增强嵌入;
[0022]采用余弦相似度计算图像增强嵌入和文本增强嵌入的全局相似度。
[0023]进一步的,构建多模态知识图谱训练神经网络模型,步骤包括:
[0024]获取训练图像{I1,...,I
N
},并从训练图像中提取三元组{I
i
,O
i
,T
i
},其中,I
i
是原始图像,O
i
是出现在I
i
中的图像对象列表,T
i
是图像I
i
的文本描述;
[0025]根据三元组构建图像对象和文本描述的关系集合,并计算共现次数,得到共现矩阵;根据文本描述计算文本路径相似度矩阵;根据对象列表计算对象路径相似度矩阵;
[0026]神经网络结合文本路径相似度矩阵和对象路径相似度矩阵进行推理,根据推理结果对神经网络中的可学习矩阵进行更新,直至收敛。
[0027]进一步的,所述局部相似度的计算步骤包括:
[0028]获取各个区域元素中的图像特征和各个词元素中的词特征,并计算每个区域元素的注意权重;
[0029]根据区域元素的注意权重计算词视觉特征,并计算词视觉特征与词特征的相似度,得到各个词特征的参与相似度;
[0030]以各个词特征的参与相似度为节点,计算各个节点间的边,构建相似性图,并对各个节点和各条边进行推理,得到局部相似度。
[0031]进一步的,所述相似性图中的各个节点及各条边的推理,包括:
[0032]对于任意两个节点之间的边计算为:
[0033][0034]其中,S
p
和S
q
为两个任意的节点,W
in
和W
out
分别是传入和传出节点的线性变换;
[0035]通过以下方式更新节点和边来进行相似性图的推理:
[0036][0037][0038]其中,和是可学习参数。
[0039]进一步的,所述动态三元组损失的计算函数为:
[0040]L(I,T)=max(α*S(I,T)

(1

α)*S(I,T

)+m,0)+max(β*S(T,I)

(1

β)*S(T,I

)+m,0)
[0041]其中,α和β是可学习参数,S(
·
,
·
)表示相似度计算函数,S(
·
,
·
)第一个参数中
的I、T分别表示为查询图像和查询文本,第二个参数中的T、T

代表查询图像的正样本文本和负样本文本,I、I

代表查询文本的正样本图像和负样本图像。
[0042]进一步的,采用二次重排法进行检索的步骤包括:
[0043]输入图像,根据相似度得到与输入图像最相似的K个第一相似文本进行第一轮检索:获取每个第一相似文本最相似的M个相似图像;根据相似图像的位置为相似文本嵌入位置索引,得到输入图像对应的图像位置集合;对图像位置集合排序后输出第一相似文本序列;
[0044]从相似文本序列中选取第二相似文本进行第二轮检索,输出第二相似文本序列。
[0045]经由上述的技术方案可知,与现有技术相比,本专利技术公开提供了一种基于图神经网络的图像文本匹配方法,产生了如下有益效果:
[0046]1、本专利技术通过二次重排序算法,使得模型在检索阶段可以充分利用双向检索的信息,大幅提高文本到图像检测的性能,并且不需要在模型训练中增加额外计算。
[0047]2、本专利技术通过加入可学习参数,自本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的图像文本匹配方法,其特征在于,包括以下步骤:获取图像数据和文本数据,分别得到图像表示和文本表示,并将图像表示和文本表示映射至共享嵌入空间;在共享嵌入空间中,将图像表示中的区域特征与文本表示中的词特征对齐;并输入到图神经网络中进行相似度推理,生成相似度矩阵;根据所述相似度矩阵,采用二次重排序算法进行图像到文本检索和文本到图像检索,通过动态三元组损失反向传播来更新网络参数。2.根据权利要求1所述的一种基于图神经网络的图像文本匹配方法,其特征在于,得到图像表示的步骤为:通过Faster R

CNN网络进行目标检测提取图像的关键区域,并利用ResNet卷积神经网络提取关键区域的表示,将得到的区域组合得到图像表示。3.根据权利要求1所述的一种基于图神经网络的图像文本匹配方法,其特征在于,所述通过注意力,得到文本表示的步骤为:通过维度转换按使文本数据的词嵌入向量维度和图像数据的区域嵌入向量维度维度统一;将词嵌入向量输入至循环网络,提取正向上下文词特征和逆向上下文词特征,结合正向上下文词特征和逆向上下文词特征得到文本表示。4.根据权利要求1所述的一种基于图神经网络的图像文本匹配方法,其特征在于,所述计算相似度,包括:利用图神经网络分别进行全局对齐和局部对齐,计算出图像和文本的全局相似度和局部相似度,将二者融合即可得到总相似度。5.根据权利要求4所述的一种基于图神经网络的图像文本匹配方法,其特征在于,所述全局相似度的计算步骤包括:构建多模态知识图谱训练神经网络模型,并通过训练好的神经网络模型对区域特征和词特征分别进行推理,得到图谱表示;通过图谱表示对输入图像的全局嵌入和输入文本的全局嵌入进行增强,生成多模态知识增强嵌入;采用余弦相似度计算图像增强嵌入和文本增强嵌入的全局相似度。6.根据权利要求5所述的一种基于图神经网络的图像文本匹配方法,其特征在于,构建多模态知识图谱训练神经网络模型,步骤包括:获取训练图像{I1,...,I
N
},并从训练图像中提取三元组{I
i
,O
i
,T
i
},其中,I
i
是原始图像,O
i
是出现在I
i

【专利技术属性】
技术研发人员:蒋雨彤金福生乔壮袁野王国仁
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1