一种融合图卷积的跨模态检索方法技术

技术编号：30432855 阅读：21 留言：0更新日期：2021-10-24 17:28

本发明专利技术公开了一种融合图卷积的跨模态检索方法，属于跨模态检索技术领域。所述方法通过为不同模态构建各自的模态图，图中每个节点代表该模态某一样本的原始特征，并利用图卷积根据近邻关系更新图中的节点特征，同时结合全连接编码特征，得到不同模态高度语义一致的融合编码特征。之后通过公共表征学习层的模态不变损失获得表示一致的公共表征，通过两个子网顶部的线性分类器增强各模态公共表征的语义辨识度，进一步提升了跨模态检索性能；通过在Wikipedia数据集和Pascal Sentence数据集上的实验证明，本申请方法相对于现有技术中性能最优的DSCMR方法，平均mAP值分别提高了2.3％和2.4％。和2.4％。和2.4％。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合图卷积的跨模态检索方法

[0001]本专利技术涉及一种融合图卷积的跨模态检索方法，属于跨模态检索

技术介绍

[0002]海量信息数据的诞生使得多模态内容理解领域成为热点，作为其重要组成部分之一，跨模态检索也因此备受关注。与单模态检索相比，跨模态检索能跨越不同模态实现信息检索，比如，可以实现文本信息和图片信息的相互检索，满足用户不断增长的检索需求。
[0003]跨模态检索面临的主要挑战是多模态数据模态内的语义鸿沟和模态间的异构鸿沟问题，如果无法很好的解决这两个问题，会直接导致检索不出相应的结果。不同模态原始空间中，语义相似的样本其特征分布也相似，这种局部一致信息有助于消除模态内的语义鸿沟，对生成语义一致的跨模态公共表征十分重要。传统的跨模态检索方法虽在线性映射的过程中利用图正则保留图结构信息，即多模态数据的局部信息，但却无法建模复杂的非线性关系。此外，由于传统卷积神经网络无法有效处理图结构等非欧式空间的数据，基于深度学习的跨模态检索方法往往忽略了图结构信息。
[0004]近年来，图卷积神经网络由于其对图结构数据的强大处理能力备受关注，在多模态内容理解领域的研究也逐渐兴起，但该领域的图卷积方法通常为单个样本中的多个显著性目标构建图结构，来改进单个样本的原始特征，忽略了不同样本原始特征间的交互信息。因此，检索精度依然有待于进一步的提高。

技术实现思路

[0005]为了解决现有的跨模态检索方法对多模态数据的局部一致性挖掘不充分导致其检索精度无法进一步提高的问题，本专利技术提供...

【技术保护点】

【技术特征摘要】
1.一种融合图卷积的跨模态检索方法，其特征在于，所述方法包括：步骤S1：构建融合图卷积跨模态检索网络，所述融合图卷积跨模态检索网络包括图片子网和文本子网；图片子网和文本子网分别包含底层特征提取网络、特征编码网络、公共表征学习层以及线性分类器四个组成部分，各部分依次连接；其中图片子网的特征编码网络包括图片图卷积编码网络和图片全连接编码网络；文本子网的特征编码网络包括文本图卷积特征编码网络和文本全连接特征编码网络；步骤S2：采用公共数据集训练所构建的融合图卷积跨模态检索网络；步骤S3：利用训练好的融合图卷积跨模态检索网络得待检索图片或文本的最优公共表示特征，并采用余弦距离度量待检索图片或文本的最优公共表示特征与数据库中各图片或文本的公共表示特征间的距离，得到相似度矩阵，根据相似度矩阵输出相应的跨模态检索结果。2.根据权利要求1所述的方法，其特征在于，所述方法在训练所构建的融合图卷积跨模态检索网络时，包括：Setp1：分别利用图片子网和文本子网的底层特征提取网络提取图片原始特征矩阵O
v
和文本原始特征矩阵O
t
；并分别构建图片模态图和文本模态图，计算得到图片模态图的邻接矩阵A
v
和文本模态图的邻接矩阵A
t
；Setp2：将图片原始特征矩阵O
v
和图片模态图的邻接矩阵A
v
同时送入图片图卷积编码网络，学习图片图卷积编码特征G
v
；将文本原始特征矩阵O
t
和文本模态图的邻接矩阵A
t
同时送入文本图卷积编码网络，学习文本图卷积编码特征G
t
；Setp3：将图片原始特征矩阵O
v
送入图片全连接编码网络，学习图片全连接编码特征C
v
；将文本深度特征O
t
送入文本全连接编码网络，学习文本全连接编码特征C
t
；Setp4：将Setp2获得的图片图卷积编码特征G
v
和Setp3获得的图片全连接编码特征C
v
融合，得到图片融合特征F
v
；将Setp2获得的文本图卷积编码特征G
t
和Setp3获得的文本全连接编码特征C
t
融合，得到文本融合特征F
t
；Setp5：将图片融合特征F
v
输入图片子网的公共表征学习层，学习图片公共表示特征M；将文本融合特征F
t
输入文本子网的公共表征学习层，学习文本公共表示特征N；Setp6：将图片公共表示特征M与对应的真实类别标签矩阵Y送入图片子网的线性分类器，使图片公共表示特征M的预测类别与其真实类别保持一致；将文本公共表示特征N与对应的真实类别标签矩阵Y送入文本子网的线性分类器，使文本公共表征的预测类别与其真实类别保持一致；Setp7：最小化网络总损失函数L获得融合图卷积的跨模态检索网络的最优参数，从而得到训练好的融合图卷积的跨模态检索网络。3.根据权利要求2所述的方法，其特征在于，所述Setp1中，分别构建图片模态图和文本模态图，计算得到图片模态图的邻接矩阵A
v
和文本模态图的邻接矩阵A
t
，包括：构建图片模态图：输入图片模态的原始特征将其原始空间中的每一特征向量视为图片模态图中一个节点，计算该节点与其他节点间的欧式距离...

【专利技术属性】
技术研发人员：陈莹，代瑾，化春键，李祥明，胡蒙，裴佩，
申请(专利权)人：江南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人