一种基于图神经网络的图像文本匹配方法组成比例

技术编号：39438835 阅读：8 留言：0更新日期：2023-11-19 16:22

本发明专利技术公开了一种基于图神经网络的图像文本匹配方法，包括以下步骤：获取图像数据和文本数据，并通过注意力计算，分别得到图像表示和文本表示，并将图像表示和文本表示映射至共享嵌入空间；在共享嵌入空间中，将图像表示中的区域特征与文本表示中的词特征对齐；并输入到图神经网络中进行相似度推理，生成相似度矩阵；根据所述相似度矩阵，采用二次重排序算法进行图像到文本检索和文本到图像检索，通过动态三元组损失反向传播来更新网络参数；本发明专利技术通过二次重排序算法，使得模型在检索阶段可以充分利用双向检索的信息，大幅提高文本到图像检测的性能，并且不需要在模型训练中增加额外计算。外计算。外计算。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图神经网络的图像文本匹配方法

[0001]本专利技术涉及计算机图文匹配
，更具体的说是涉及一种基于图神经网络的图像文本匹配方法。

技术介绍

[0002]图像文本匹配是指通过输入一个图像或者文本，从数据集中找到相关的文本或者图像，因此，图像文本匹配通常包含了两个子任务：图像到文本匹配和文本到图像匹配。通过研究图像文本匹配技术对于现实中的许多场景都有帮助，可以让人们更好地理解和利用图像信息，提高各种应用场景的效率和便利性。
[0003]目前，图像文本匹配算法模型的损失函数主要使用三元组损失，通过最大化正样本之间的相似度距离、最小化负样本之间的相似度距离来训练模型，这种损失函数虽然可以学到更好的特征表示、对数据分布的适应性很强，但是其在计算时将正样本和负样本看作同等重要，但是在实际情况中，正负样本的权重应该与数据集的情况相关，使用相同权重可能与现实数据有所偏差。其次，由于常用的数据集都是使用一张图像对应五条文本，因此模型对于学习到的图像到文本匹配和文本到图像匹配的两个性能有所差别。
[0004]因此，如何均衡两种性能是本领域技术人员亟需解决的问题。

技术实现思路

[0005]有鉴于此，本专利技术提供了一种基于图神经网络的图像文本匹配方法，实现了双向检索能力的均衡应用。
[0006]为了实现上述目的，本专利技术采用如下技术方案：
[0007]一种基于图神经网络的图像文本匹配方法，包括以下步骤：
[0008]获取图像数据和文本数据，并通过注意力计算，分别得到...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的图像文本匹配方法，其特征在于，包括以下步骤：获取图像数据和文本数据，分别得到图像表示和文本表示，并将图像表示和文本表示映射至共享嵌入空间；在共享嵌入空间中，将图像表示中的区域特征与文本表示中的词特征对齐；并输入到图神经网络中进行相似度推理，生成相似度矩阵；根据所述相似度矩阵，采用二次重排序算法进行图像到文本检索和文本到图像检索，通过动态三元组损失反向传播来更新网络参数。2.根据权利要求1所述的一种基于图神经网络的图像文本匹配方法，其特征在于，得到图像表示的步骤为：通过Faster R
‑
CNN网络进行目标检测提取图像的关键区域，并利用ResNet卷积神经网络提取关键区域的表示，将得到的区域组合得到图像表示。3.根据权利要求1所述的一种基于图神经网络的图像文本匹配方法，其特征在于，所述通过注意力，得到文本表示的步骤为：通过维度转换按使文本数据的词嵌入向量维度和图像数据的区域嵌入向量维度维度统一；将词嵌入向量输入至循环网络，提取正向上下文词特征和逆向上下文词特征，结合正向上下文词特征和逆向上下文词特征得到文本表示。4.根据权利要求1所述的一种基于图神经网络的图像文本匹配方法，其特征在于，所述计算相似度，包括：利用图神经网络分别进行全局对齐和局部对齐，计算出图像和文本的全局相似度和局部相似度，将二者融合即可得到总相似度。5.根据权利要求4所述的一种基于图神经网络的图像文本匹配方法，其特征在于，所述全局相似度的计算步骤包括：构建多模态知识图谱训练神经网络模型，并通过训练好的神经网络模型对区域特征和词特征分别进行推理，得到图谱表示；通过图谱表示对输入图像的全局嵌入和输入文本的全局嵌入进行增强，生成多模态知识增强嵌入；采用余弦相似度计算图像增强嵌入和文本增强嵌入的全局相似度。6.根据权利要求5所述的一种基于图神经网络的图像文本匹配方法，其特征在于，构建多模态知识图谱训练神经网络模型，步骤包括：获取训练图像{I1,...,I
N
}，并从训练图像中提取三元组{I
i
,O
i
,T
i
}，其中，I
i
是原始图像，O
i
是出现在I
i

【专利技术属性】
技术研发人员：蒋雨彤，金福生，乔壮，袁野，王国仁，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人