一种基于图网络与模态间特征融合的跨模态哈希方法技术

技术编号:38893515 阅读:13 留言:0更新日期:2023-09-22 14:16
本发明专利技术公开了一种基于图网络与模态间特征融合的跨模态哈希方法包括,通过获取跨模态检索数据集;对训练数据集里文本和图像分别进行特征提取,通过孪生图卷积神经网络学习图像和文本模态的图表示;通过模态间特征融合模块生产层图像和文本模态的哈希码;引入余弦三元组损失,根据模态间鉴别损失函数、模态内鉴别损失函数、引导损失函数和量化损失函数训练网络;通过网络收敛,利用测试集的样本进行跨模态检索。本方法有效的联合利用图像和文本模态的深层特征,从而有效地减少模态差异,同时保持邻里关系,解决了过去跨模态哈希方法占存储空间大和检索速度慢的问题。空间大和检索速度慢的问题。空间大和检索速度慢的问题。

【技术实现步骤摘要】
一种基于图网络与模态间特征融合的跨模态哈希方法


[0001]本专利技术涉及一种跨模态哈希方法,尤其涉及一种基于图网络与模态间特征融合的跨模态哈希方法

技术介绍

[0002]随着信息技术的高速发展,互联网上的多媒体数据(图像、文本和视频等)呈现爆炸式增长。数据量的增加以及多媒体数据的多种存在形式使得跨模态检索任务面临越来越多的难题。跨模态检索是指使用一种模态的数据作为输入去检索另一种模态的具有相同语义信息的数据。由于哈希学习技术具有低存储消耗和高效检索的特点,因此受到了越来越多研究人员和学者的关注,并将其引入到跨模态检索任务中,提出了许多优秀的跨模态哈希方法。在跨模态哈希任务中,大多数的深度学习方法是将高维特征转换为哈希码,使语义相似的相关样本具有相似的哈希码。在过去的几年中,许多基于哈希的跨模态检索方法被提出。然而,现有的跨模态哈希方法仍有很大的改进空间。例如,如何有效的联合利用图像和文本模态的深层特征,从而有效地减少模态差异,同时保持邻里关系,还没有得到很好的研究。

技术实现思路

[0003]本专利技术目的在于改进跨模态哈希方法的现有缺点,减少存储空间的同时提高检索速度,本专利技术提出一种基于图网络和模态间特征融合的跨模态哈希网络,并利用该网络进行跨模态检索。鉴于上述现有存在的问题,提出了本专利技术。
[0004]本专利技术提供如下技术方案,一种基于图网络和模态间特征融合的跨模态哈希网络,包括:
[0005]获取跨模态检索数据集;
[0006]对训练数据集里文本和图像分别进行特征提取;
[0007]通过孪生图卷积神经网络学习图像和文本模态的图表示;
[0008]通过模态间特征融合模块生成图像和文本模态的哈希码;
[0009]引入余弦三元组损失,根据模态间鉴别损失函数、模态内鉴别损失函数、引导损失函数和量化损失函数训练网络;
[0010]通过网络收敛,利用测试集的样本进行跨模态检索。
[0011]作为本专利技术所述的基于图网络与模态间特征融合的跨模态哈希方法的一种优选方案,其中:所述获取跨模态检索数据集包括,训练集和测试集。
[0012]作为本专利技术所述的基于图网络与模态间特征融合的跨模态哈希方法的一种优选方案,其中:所述对训练数据集里文本和图像分别进行特征提取包括,利用VGG

19模型提取第七层全连接层的图像特征,利用词袋模型提取文本特征。
[0013]作为本专利技术所述的基于图网络与模态间特征融合的跨模态哈希方法的一种优选方案,其中:所述通过孪生图卷积神经网络学习图像和文本模态的图表示包括,给定多模态
数据集D={I,T},为图像和文本模态构建图G=(V,E);
[0014]其中,和D为多模态数据集,G为图像和文本模态的构件图,I表示图像模态的特征矩阵,T表示文本模态的特征矩阵,N是图像及文本模式的特征向量的总数,并且图像与文本模态的特征维度d
i
≠d
t
,V指的是数据样本中的顶点集,E指的是数据顶点与邻接顶点的连接;
[0015]每层图卷积神经网络的定义为:
[0016][0017]D
ii
=∑
j
A
ij
[0018]其中,A为图像和文本模态图的邻接矩阵,D为邻接矩阵A的度矩阵,θ
l
表示第l层网络的可训练参数,ii表示对角,tanh为激活函数;
[0019]对于图像模态,第一层图卷积神经网络的输入为I,输出为第二层图卷积神经网络的输入为输出为Q
I
,对于文本模态,第一层图卷积神经网络的输入为E
T
,输出第二层图卷积神经网络的输入输出为Q
T
,E
T
为文本矩阵T通过一层全连接层所得到的文本编码特征,并且E
T
和I的特征维度相同。
[0020]作为本专利技术所述的基于图网络与模态间特征融合的跨模态哈希方法的一种优选方案,其中:所述模态间特征包括,隐层特征和融合特征F
I
,其定义为:
[0021][0022][0023]其中,F
K
=K,K∈{I,T},表示图像两层全连接层,表示文本模态的两层全连接层,对融合后的特征执行进一步的映射;
[0024]Z
K
=f
K
(F
K
),K∈{I,T}。
[0025]作为本专利技术所述的基于图网络与模态间特征融合的跨模态哈希方法的一种优选方案,其中:所述余弦三元组损失包括,定义为:
[0026][0027]其中,{v,ε
+
,ε

},表示每个三元组由一个锚点和相应的正负点所组成,v表示锚点特征,ε
+
表示一个积极的特征,ε

表示一个消极的特征,m是边界参数,i、j、k都表示样本。
[0028]作为本专利技术所述的基于图网络与模态间特征融合的跨模态哈希方法的一种优选方案,其中:所述模态内辨别损失L
intra
和模态间辨别损失L
inter
包括,
[0029]模态内辨别损失L
intra
去保持模态内相似性:
[0030][0031][0032][0033]模态间辨别损失L
inter
以保持不同模态实例之间的相似性:
[0034][0035][0036][0037]作为本专利技术所述的基于图网络与模态间特征融合的跨模态哈希方法的一种优选方案,其中:所述引导损失函数包括,使用量化损失,引导损失函数和量化损失分别的定义为:
[0038][0039][0040]B
*
=sign(Z
*
),*∈{I,T}
[0041]其中,B表示生成的哈希码,*表示变量。
[0042]作为本专利技术所述的基于图网络与模态间特征融合的跨模态哈希方法的一种优选方案,其中:所述总损失为态间鉴别损失L
inter
、模态内鉴别损失L
intra
、引导损失L
guide
和的量化损失L
q
的集合,表示为:
[0043]L
total
=L
inter
+αL
intra
+βL
guide
+γL
q
[0044]其中,α、β和γ都是平衡参数,利用随机梯度下降算法来优化模型参。
[0045]作为本专利技术所述的基于图网络与模态间特征融合的跨模态哈希方法的一种优选方案,其中:所述利用测试集的样本进行跨模态检索包括,每个样本对为文本、图像和语义标签,跨模态检索以MAP为指标,定义为:
[0046][0047][0048]其中,q表示查询的样本数,AP
j
表示第j个查询样本的AP,k表示当前样本在数据集中的真实邻本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图网络与模态间特征融合的跨模态哈希方法,其特征在于:包括,通过获取跨模态检索数据集;对训练数据集里文本和图像分别进行特征提取;通过孪生图卷积神经网络学习图像和文本模态的图表示;通过模态间特征融合模块生产层图像和文本模态的哈希码;引入余弦三元组损失,根据模态间鉴别损失函数、模态内鉴别损失函数、引导损失函数和量化损失函数训练网络;通过网络收敛,利用测试集的样本进行跨模态检索。2.如权利要求1所述的一种基于图网络与模态间特征融合的跨模态哈希方法,其特征在于:所述获取跨模态检索数据集包括,训练集和测试集。3.如权利要求2所述的一种基于图网络与模态间特征融合的跨模态哈希方法,其特征在于:所述对训练数据集里文本和图像分别进行特征提取包括,利用VGG

19模型提取第七层全连接层的图像特征,利用词袋模型提取文本特征。4.如权利要求3所述的一种基于图网络与模态间特征融合的跨模态哈希方法,其特征在于:所述通过孪生图卷积神经网络学习图像和文本模态的图表示,包括,给定多模态数据集D={I,T},为图像和文本模态构建图G=(V,E);其中,和D为多模态数据集,G为图像和文本模态的构件图,I表示图像模态的特征矩阵,T表示文本模态的特征矩阵,N是图像及文本模式的特征向量的总数,并且图像与文本模态的特征维度d
i
≠d
t
,V指的是数据样本中的顶点集,E指的是数据顶点与邻接顶点的连接;每层图卷积神经网络的定义为:D
ii
=∑
j
A
ij
其中,A为图像和文本模态图的邻接矩阵,D为邻接矩阵A的度矩阵,θ
l
表示第l层网络的可训练参数,ii表示对角,tan h为激活函数;对于图像模态,第一层图卷积神经网络的输入为I,输出为第二层图卷积神经网络的输入为输出为Q
I
,对于文本模态,第一层图卷积神经网络的输入为E
T
,输出第二层图卷积神经网络的输入输出为Q
T
,E
T
为文本矩阵T通过一层全连接层所得到的文本编码特征,并且E
T
和I的特征维度相同。5.如权利要求4所述的一种基于图网络与模态间特征融合的跨模态哈希方法,其特征在于:所述模态间特征包括,隐层特征和融合特征F
I
,其定义为:,其定义为:
其中,F
K
=K,K∈{I,T},表示图像两层全连接层,表示文本模态的两层全连接层,对融合后的特征执行进一步的映射;...

【专利技术属性】
技术研发人员:吴飞李帅帅季一木陈澍蒋国平
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1