基于多层语义深度哈希算法的图像-文本跨模态检索制造技术

技术编号:21832887 阅读:48 留言:0更新日期:2019-08-10 18:05
本发明专利技术涉及结合深度学习与哈希方法的图像‑文本跨模态检索模型。为了解决传统基于深度学习的跨模态哈希方法在处理多标签数据问题时直接将其转换为单标签问题的局限性,提出了一种基于多层语义的深度跨模态哈希算法。通过多标签数据之间的共现关系定义数据之间的相似度,并以此作为网络训练的监督信息。设计综合考虑多层语义相似度与二值相似度的损失函数,对网络进行训练,使得特征提取和哈希码学习过程统一在一个框架内,实现端到端学习。该算法充分利用数据之间的语义相关性信息,提高了检索准确率。

Image-text cross-modal retrieval based on multi-level semantic depth hashing algorithm

【技术实现步骤摘要】
基于多层语义深度哈希算法的图像-文本跨模态检索
本专利技术涉及到跨模态检索领域,尤其涉及到一种基于多层语义的结合深度学习与哈希方法的图像-文本跨模态检索算法。
技术介绍
随着移动互联网的发展和智能手机、数码相机等设备的普及,互联网上的多媒体数据呈爆炸式增长。在信息检索领域,多媒体大数据的不断增长带来了跨模态检索应用需求。而目前主流的搜索引擎,如百度、谷歌、必应等,仅提供一种模态的检索结果。此外,随着深度学习在计算机视觉、自然语言处理等领域取得一系列突破性进展,将多媒体大数据与人工智能相结合,是两个领域未来共同的发展趋势。因此,结合新技术和新需求,探索新的跨模态检索模式成为当前信息检索领域亟待解决的挑战之一。传统的跨模态检索通常采用依赖领域知识的手工设计特征,“语义鸿沟”问题仍是该领域的难点。将深度学习应用于跨模态检索领域,不仅为解决不同模态异质数据之间的“媒体鸿沟”提供了大量特征学习与表示方面先进的研究成果。然而,随着多媒体数据的不断增长,采用深度学习的特征表示由于维数过大而面临存储空间与检索效率的挑战,导致无法适应大规模多媒体数据检索任务。同时,跨模态检索问题还面临真实数据存在多个标签的问题。现有的解决方法大部分均采用了将问题转化为二值相关的单标签学习问题,导致学习到的模型不能充分保留数据在原语义空间的关联关系,影响最终检索结果
技术实现思路
本专利技术的目的在于克服现有技术的不足,将结合基于深度学习的特征表示,并同时考虑图像、文本两种模态数据的二值相似性和多层语义相似性,应用哈希方法通过网络训练得到数据到哈希码的映射,提供一种检索准确率更高的图像-文本跨模态检索方法。为实现上述目的,本专利技术所提供的技术方案为:分为三个模块,分别为深度特征提取模块、相似度矩阵生成模块、哈希码学习模块;其中,深度特征提取模块采用深度神经网络提取图像和文本数据特征。该模块采用两个子网络分别提取图像和文本模态数据特征的结构,即包含两个深度神经网络,一个用于提取图像数据的特征,一个用于提取文本数据特征。采用深度卷积神经网络CNN-F网络结构进行图像特征提取。CNN-F的结构由5层卷积层和3层全连接层构成。在文本特征提取阶段,首先以词袋(Bag-of-Words,BOW)向量对文本数据建模。基于上述词袋模型,文本特征提取网络采用由三层全连接层构成的多层感知机(Multi-LayerPerception,MLP)网络提取文本特征。对于相似度矩阵生成模块,包含二值相似度矩阵生成和多层语义相似度矩阵生成。它们各自生成一个跨模态相似度矩阵。对于二值相似度矩阵当图像i与文本j相似时,矩阵对应的取值为1;当图像i与文本j不相似时,矩阵对应的取值为0。对于多层语义相似度矩阵根据标签共现关系设计其计算方法,使得两个样本的类别标签集拥有更多相似标签时,样本的相似度越大,当两个标签集完全相同时,达到最大值1。当两个样本标签集中的标签完全不同时,取最小值0。对于哈希码生成模块,为了使学习到的哈希码保留二值相似度矩阵及多层语义相似度矩阵中的语义信息,设计目标函数:其中,通过优化该目标函数,学习网络参数,得到数据与哈希码的映射关系。与现有技术相比,本方案原理及优点如下:本方案结合深度学习与哈希方法,克服传统手工设计特征在特征表示能力上的不足,及深度特征维数过大,不利于数据存储和计算的缺点,并结合二值相似度和多层语义相似度,充分考虑跨模态数据之间复杂的相似度关系,使学习到的哈希码保留更多语义信息,提高检索准确率。附图说明图1为本专利技术基于多层语义深度哈希算法的图像-文本跨模态检索的整体框架图;具体实施方式下面结合具体实例对本专利技术作进一步说明:本专利技术中皆以图像和文本两种模态为例进行讨论。本专利技术提供了一种基于多层语义深度哈希算法的图像-文本跨模态检索(DeepMulti-LevelSemanticHashingforCross-modalRetrieval,DMSH)方法,其中包含三个模块:深度特征提取模块、相似度矩阵生成模块、哈希码学习模块,如图1所示;表1图像特征提取网络结构深度特征提取模块采用深度神经网络提取图像和文本数据特征。采用深度卷积神经网络CNN-F网络结构进行图像特征提取,网络结构配置如表1所示。在文本特征提取阶段,首先以词袋向量对文本数据建模。基于词袋模型,文本特征提取网络采用由三层全连接层构成的多层感知机网络提取文本特征,网络配置如表2所示.其中,conv1层采用4步长卷积,conv2-conv5层均采用1步长卷积。pad即补边(Padding),表示步长移动方式。通常指给图像边缘补边,使得卷积后输出的图像尺寸与原尺寸一致。LRN表示局部响应归一化(LocalResponseNormalization)。其模仿生物神经元的侧抑制机制,对局部神经元的活动创建竞争机制,使响应较大的值更大,并抑制反馈较小的神经元,增强模型泛化能力。采用MAX操作的池化技术,取原图像某一尺寸内的最大值,从而有效减少模型参数,防止过拟合。并通过Dropout正则化技术,通过在训练期间随机的丢弃一定数量的神经元,防止网络过拟合。表2文本特征提取网络其中,网络的第一个隐藏层是与输入词袋向量长度相同的全连接层,第二层隐藏层是4096维全连接层,第三层是长度为哈希码长的全连接层。网络的输出即文本特征向量。相似度矩阵生成模块包含二值相似度矩阵生成和多层语义相似度矩阵生成。它们各自生成一个跨模态相似度矩阵对于二值相似度矩阵当图像i与文本j相似时,矩阵对应的取值为1;当图像i与文本j不相似时,矩阵对应的取值为0。其中,不同模态数据之间的相似性通过类别标签衡量。即若图像i和文本j有共同的一组类别标签,那么认为它们是相似的;否则认为它们是不相似的。其定义如下:对于多层语义相似度矩阵采用一种基于类别标签共现关系的相似度矩阵计算方法;下面介绍具体生成方法。对于两个类别标签ti,tj,定义标签相似度:其中,d(ti,tj)表示两个标签的语义距离,定义如下:其中,分别表示训练集中ti,tj出现的次数;表示ti,tj共同出现的次数;Nc表示训练集中所有标签的个数。由定义(2)可知,s(ti,tj)∈[0,1],表示当两个标签共同出现的次数越多时,它们的相似度越大。根据标签相似性s,可定义样本间的相似性对于两个样本Dm,Dn,定义样本相似度其中,tm,tm分别表示样本Dm,Dn的类别标签集;|tm|,|tn|分别表示tm,tn的个数;即哈希标签。由定义可知,当两个样本的类别标签集拥有更多相似标签时,样本的相似度越大,当两个标签集tm,tn完全相同时,达到最大值1。当tm中的标签与tn中的标签全部不相似时,取最小值0。因此,基于多标签的语义相似度矩阵可以作为哈希码学习过程的监督信息。与二值相似度矩阵相比,将跨模态相似度由离散的{0,1}扩展为连续的[0,1]区间取值,保留了更多隐含在数据类别标签中的丰富的语义信息。哈希码学习模块,以表示学习到的样本Di的图像特征,即图像特征提取网络的输出;以表示学习到的样本Dj的文字特征,即文字特征提取网络的输出。分别表示两个深度网络的参数。为了使学习到的哈希码保留二值相似度矩阵的语义信息,采用sigmoid交叉熵损失函数:其中,为保证训练过程的稳定性及避免溢出本文档来自技高网...

【技术保护点】
1.一种基于多层语义深度哈希算法的图像‑文本跨模态检索方法。其特征在于:整体框架包含三个模块:深度特征提取模块、相似度矩阵生成模块、哈希码学习模块;分别采用两个深度神经网络提取图像和文字特征,将特征学习和哈希码学习过程统一在一个框架内,并通过引入基于标签共现的多层次语义监督信息指导整个训练过程,使得到的二值码不仅保留了原样本空间基本的相似/不相似关系,并且能够区分样本间的相似程度,更大程度的保留样本间的高层语义,提高检索准确率;在结构上,通过对网络施加“在语义空间相似的图像和文字在汉明空间具有相似的哈希码”这一约束进行训练,直接将哈希码作为网络的输出,实现端到端学习,从而保证学习到的特征适应特定的检索任务。

【技术特征摘要】
1.一种基于多层语义深度哈希算法的图像-文本跨模态检索方法。其特征在于:整体框架包含三个模块:深度特征提取模块、相似度矩阵生成模块、哈希码学习模块;分别采用两个深度神经网络提取图像和文字特征,将特征学习和哈希码学习过程统一在一个框架内,并通过引入基于标签共现的多层次语义监督信息指导整个训练过程,使得到的二值码不仅保留了原样本空间基本的相似/不相似关系,并且能够区分样本间的相似程度,更大程度的保留样本间的高层语义,提高检索准确率;在结构上,通过对网络施加“在语义空间相似的图像和文字在汉明空间具有相似的哈希码”这一约束进行训练,直接将哈希码作为网络的输出,实现端到端学习,从而保证学习到的特征适应特定的检索任务。2.根据权利要求1所述的一种基于多层语义深度哈希算法的图像-文本跨模态检索方法,其特征在于:整体框架由深度特征提取模块、相似度矩阵生成模块、哈希码学习模块三个部分构成,通过将原始空间的数据映射为汉...

【专利技术属性】
技术研发人员:冀振燕姚伟娜杨文韬皮怀雨
申请(专利权)人:北京交通大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1