一种基于模态特定和共享特征学习的跨模态检索方法技术

技术编号:28463951 阅读:20 留言:0更新日期:2021-05-15 21:29
本发明专利技术公开了一种基于模态特定和共享特征学习的跨模态检索方法,包括:步骤S1、获取跨模态检索数据集,划分为训练集和测试集;步骤S2、对文本和图像分别进行特征提取;步骤S3、提取模态特定特征和模态共享特征;步骤S4、通过哈希网络生成对应模态样本的哈希码;步骤S5、联合对抗自编码器网络的损失函数以及哈希网络的损失函数训练网络;步骤S6、利用步骤S5中训练完成的网络对测试集中的样本进行跨模态检索。本发明专利技术设计了一个哈希网络,将图像通道的编码特征和文本通道编码特征以及模态共享特征投影到汉明空间中,并且利用标签信息、模态特定和共享特征进行建模,使得输出的哈希码在模态间和模态内具有更好的语义区分性。在模态间和模态内具有更好的语义区分性。在模态间和模态内具有更好的语义区分性。

【技术实现步骤摘要】
一种基于模态特定和共享特征学习的跨模态检索方法


[0001]本专利技术涉及一种跨模态的检索方法,特别是涉及一种基于模态特定和共享特征学习的跨模态检索方法。

技术介绍

[0002]近些年来,海量的多模态数据充斥着我们的生活。就以互联网上的新闻为例,通常包括文字介绍,有时还会在页面上排版一些记者拍下的照片,甚至会有一些独家的视频和音频的报道。像文本、图像、视频、音频等多模态数据是我们从多个角度去高效地获取同一个信息的重要手段。用户不仅仅需要单一模态数据之间地检索,更加需要一种更灵活地检索方式:从一个模态数据去精准地检索到另外一种模态的相关数据。近些年来,跨模态检索这项工作已经成为学术界广泛讨论地热点。但是,多模态数据因为有不同的分布和表示通常具有比较强的异质性,难以直接计算并缩小它们之间的差异。因此,跨模态检索任务存在一定的挑战性。在自编码的学习过程中如何更好地保留原始特征以及消除多模态数据分布的差异是一个重要的研究课题。此外,现有的跨模态检索工作在做特征提取时少有将模态特定信息和模态共享信息结合考虑,造成有效信息的丢失。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供一种基于模态特定和共享特征学习的跨模态检索方法,通过重新设计的自编码器的框架,有效地减小多模态数据的分布差异,并且通过重新设计哈希网络,使得输出的哈希码在模态间和模态内具有更好的语义区分性。
[0004]为实现本专利技术的目的,本专利技术所述的一种基于模态特定和共享特征学习的跨模态检索方法,包括如下步骤:
[0005]步骤S1、获取跨模态检索数据集,并且将所述跨模态检索数据集划分为训练集和测试集;
[0006]步骤S2、对训练集中的文本和图像分别进行特征提取;
[0007]步骤S3、设置对抗自编码器网络,通过所述对抗自编码器网络提取模态特定特征和模态共享特征;
[0008]步骤S4、通过哈希网络生成对应模态样本的哈希码;
[0009]步骤S5、联合对抗自编码器网络的损失函数以及哈希网络的损失函数训练网络;
[0010]步骤S6、利用步骤S5中训练完成的网络对测试集中的样本进行跨模态检索。
[0011]进一步的,所述跨模态检索数据集包括多个样本对,每个样本对包括:文本、图像和相应的语义标签。
[0012]进一步的,在所述步骤S2中,通过VGG

19模型提取第七部分全连接层的图像特征;通过词袋模型提取文本特征。
[0013]进一步的,所述步骤S3具体包括:
[0014]步骤S301、设置对抗自编码器网络的生成器,所述生成器包括隐含层生成器和全
局生成器;
[0015]所述隐含层生成器用以获取图像特征和文本特征在子空间的分布,所述隐含层生成器包括3层全连接层,每一层的神经元数量分别为3000、1000、100,激活函数为Tanh;
[0016]所述全局生成器用以获取图像和文本的重构特征,所述全局生成器包括5层全连接层,每一层的神经元数量分别为3000、1000、100、1000、3000,激活函数为Tanh;
[0017]步骤S302、设置对抗自编码器网络的判别器,所述判别器包括隐含层判别器和全局判别器;
[0018]所述隐含层判别器用以区分子空间的图像特征和文本特征,所述隐含层判别器包括3层全连接层,神经元个数分别是50、25、1,激活函数为LeakyReLU;
[0019]所述全局判别器用以区分真实图像特征和生成的图像特征以及真实文本特征和生成的文本特征,所述全局判别器包括2层全连接层,每一层的神经元数量分别为20、1,激活函数为LeakyReLU;
[0020]步骤S303、所述全局生成器通过对抗性的训练保留图像模态和文本模态的原始特征,所述全局生成器的损失函数定义为:
[0021][0022]公式(1)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,表示图像模态通道自编码器重构损失,表示文本模态通道自编码器重构损失,p
Gg
表示为全局生成器生成的特征集,和表示p
Gg
中图像和文本模态的实例,表示为图像通道的全局判别器,用以区分真实的图片特征和解码生成的图片特征,表示为文本通道的全局判别器,用以区分真实的文本特征和解码生成的文本特征,θ
En
和θ
De
分别表示为自编码器网络编码层和解码层的网络参数,α表示为平衡参数;
[0023]步骤S304、所述隐含层生成器通过对抗性的训练策略生成模态特定特征以及模态共享特征,所述隐含层生成器的损失函数定义为:
[0024][0025]公式(2)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,表示为图像模态的共享特征集,表示为文本模态的共享特征集,和分别表示和中的实例,和表示为模态分类器,用以区分隐含层的共享特征来自于哪个模态,θ
En
表示为对抗自编码器网络编码层的网络参数;
[0026]步骤S305、所述全局判别器的损失函数定义为:
[0027][0028]公式(3)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,以及分别表示图像和文本模态自编码结构的全局判别器,p
data
表示为在步骤S2中,通过VGG

19模型以及词袋模型提取到的特征集,p
Gg
表示为全局生成器生成的特征集,θ
Ag
表示为全局判别器网络参数,x
v
和x
t
分别表示p
data
中的图像和文本模态的实例,和表示p
Gg
中图像和文本模态的实例;
[0029]步骤S306、所述隐含层判别器的损失函数定义为:
[0030][0031]公式(4)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,表示为图像模态的共享特征,表示为文本模态的共享特征,和表示为模态分类器,用以区分隐含层的共享特征来自于哪个模态,θ
As
表示为隐含层判别器的网络参数,x
v
和x
t
表示VGG

19模型以及词袋模型提取到特征向量,和分别表示和中的实例。
[0032]进一步的,所述步骤S4包括:
[0033]步骤S401、设置模态特定和共享的哈希网络,包括两层的全连接层,输出为k维特征,其中k为哈希码的位数,输出特征经过sign函数生成哈希码;
[0034]步骤S402、模态特定和共享的哈希网络将成对的特征映射到汉明空间中,同时增加模态特定和模态共享特征的融合约束,运用标签信息对相似性进行建模。
[0035]进一步的,所述步骤S402,具体包括:
[0036]步骤S4021、定义模态特定和共享的哈希网络的输出为:步骤S4021、定义模态特定和共享的哈希网络的输出为:θ
h
为网络参数,其中v...

【技术保护点】

【技术特征摘要】
1.一种基于模态特定和共享特征学习的跨模态检索方法,其特征在于,包括如下步骤:步骤S1、获取跨模态检索数据集,并且将所述跨模态检索数据集划分为训练集和测试集;步骤S2、对训练集中的文本和图像分别进行特征提取;步骤S3、设置对抗自编码器网络,通过所述对抗自编码器网络提取模态特定特征和模态共享特征;步骤S4、通过哈希网络生成对应模态样本的哈希码;步骤S5、联合对抗自编码器网络的损失函数以及哈希网络的损失函数训练网络;步骤S6、利用步骤S5中训练完成的网络对测试集中的样本进行跨模态检索。2.根据权利要求1所述的一种基于模态特定和共享特征学习的跨模态检索方法,其特征在于,所述跨模态检索数据集包括多个样本对,每个样本对包括:文本、图像和相应的语义标签。3.根据权利要求2所述的一种基于模态特定和共享特征学习的跨模态检索方法,其特征在于,在所述步骤S2中,通过VGG

19模型提取第七部分全连接层的图像特征;通过词袋模型提取文本特征。4.根据权利要求3所述的一种基于模态特定和共享特征学习的跨模态检索方法,其特征在于,所述步骤S3具体包括:步骤S301、设置对抗自编码器网络的生成器,所述生成器包括隐含层生成器和全局生成器;所述隐含层生成器用以获取图像特征和文本特征在子空间的分布,所述隐含层生成器包括3层全连接层,每一层的神经元数量分别为3000、1000、100,激活函数为Tanh;所述全局生成器用以获取图像和文本的重构特征,所述全局生成器包括5层全连接层,每一层的神经元数量分别为3000、1000、100、1000、3000,激活函数为Tanh;步骤S302、设置对抗自编码器网络的判别器,所述判别器包括隐含层判别器和全局判别器;所述隐含层判别器用以区分子空间的图像特征和文本特征,所述隐含层判别器包括3层全连接层,神经元个数分别是50、25、1,激活函数为LeakyReLU;所述全局判别器用以区分真实图像特征和生成的图像特征以及真实文本特征和生成的文本特征,所述全局判别器包括2层全连接层,每一层的神经元数量分别为20、1,激活函数为LeakyReLU;步骤S303、所述全局生成器通过对抗性的训练保留图像模态和文本模态的原始特征,所述全局生成器的损失函数定义为:公式(1)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,表示图像模态通道自编码器重构损失,表示文本模态通道自编码器重构损失,p
Gg
表示为全局生成器生成的特征集,和表示p
Gg
中图像和文本模态的实例,表示为图像通道的全局判别器,用以区分真实的图片特征和解码生成的图片特征,表示为文本通道的全局判别器,用以区分真实的文本特征和解码生成的文本特征,θ
En
和θ
De
分别表示为自编码器网络编码层和解
码层的网络参数,α表示为平衡参数;步骤S304、所述隐含层生成器通过对抗性的训练策略生成模态特定特征以及模态共享特征,所述隐含层生成器的损失函数定义为:公式(2)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,表示为图像模态的共享特征集,表示为文本模态的共享特征集,和分别表示和中的实例,和表示为模态分类器,用以区分隐含层的共享特征来自于哪个模态,θ
En
表示为对抗自编码器网络编码层的网络参数;步骤S305、所述全局判别器的损失函数定义为:公式(3)中,v表示为图像模态,t表示为文本模态,E表示为数学期望,以及分别表示图像和文本模态自编码结构...

【专利技术属性】
技术研发人员:吴飞罗晓开季一木黄庆花高广谓蒋国平
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1