【技术实现步骤摘要】
一种基于深度哈希的通用跨模态检索模型
本专利技术涉及跨模态检索领域,特别是图像与文本的跨模态检索。
技术介绍
近年来,随着互联网的蓬勃发展、智能设备与社交网络的普及,多媒体数据在互联网上爆炸式的增长。这些海量的数据包括文本、图像、视频及音频等各种模态形式,同一事物会有多种不同模态数据的描述。这些数据在形式上“异构多源”,而在语义上相互关联。人们获取信息的需求已经不满足于单一模态的数据检索,通过不同模态的知识协同实现跨模态的检索成为近几年研究的热点。深度学习在单模态领域取得突破性进展,如自然语言处理领域、图像领域和语音识别领域,神经网络强大的抽象能力在不同的多媒体应用中展现出无穷的潜力,如对象识别与文本生成,为其在跨模态检索的研究上奠定了理论基础和技术实践。大多数现有技术均基于提取到的特征值直接进行建模,从而实现跨模态检索,这对于大规模数据集来非常耗时,并且需要大量的存储空间。且仅追求检索精度,却忽略了检索的效率,导致了训练之后的模型具有巨大的检索延迟和效率低下的问题,使得无法在现实中应用。哈希学习由于存储需求 ...
【技术保护点】
1.一种基于深度哈希的通用跨模态检索模型,其特征在于,所述框架包括图像模型、文本模型、二进制码转换模型、汉明空间,其中:/n1)图像模型,用于对输入的图像数据进行特征及语义的提取;/n2)文本模型,用于对输入的文本数据进行特征及语义的提取;/n3)二进制码转换模型,负责将原始特征空间中的数据点映射为公共汉明空间中的二进制编码;/n4)汉明空间,为图像模型与文本模型的特征空间的公共子空间,在其中可以通过计算待查询数据的哈希编码和原始数据编码之间的汉明距离进行相似度排序,从而得到跨模态检索结果。/n
【技术特征摘要】
1.一种基于深度哈希的通用跨模态检索模型,其特征在于,所述框架包括图像模型、文本模型、二进制码转换模型、汉明空间,其中:
1)图像模型,用于对输入的图像数据进行特征及语义的提取;
2)文本模型,用于对输入的文本数据进行特征及语义的提取;
3)二进制码转换模型,负责将原始特征空间中的数据点映射为公共汉明空间中的二进制编码;
4)汉明空间,为图像模型与文本模型的特征空间的公共子空间,在其中可以通过计算待查询数据的哈希编码和原始数据编码之间的汉明距离进行相似度排序,从而得到跨模态检索结果。
2.如权利要求1所述的一种基于深度哈希的通用跨模态检索模型,其特征在于:由于卷积神经网络(ConvolutionalNeuralNetworks,CNN)可以保留邻域的联系和空间的局部特点,且对于局部操作有很强的抽象表征能力;且可以利用图像的二维结构和相邻像素之间的高度相关性,引入池化操作在一定程度上保证了图像的平移不变性,使得模型不受位置变化的影响;池化操作同样使得网络拥有更大的感受野,使得网络在更深层学习到更加抽象的特征表示。因此,图像模型通常采用卷积神经网络进行特征及语义的提取。而对于图像数据特征的抽象表征以及提取能力,往往是性能评价的一个重要指标,因此图像模型可以使用在ImageNet数据集上经过预训练的残差网络ResNet、SeNet、DenseNet、GCN等在图像特征提取、图像分类方面表现出绝佳性能的CNN模型。
3.如权利要求1所述的一种基于深度哈希的通用跨模态检索模型,其特征在于:文本模型先采用Bow模型或者Word2Vec模型将文本数据转换为向量形式。对文本向量的特征及语义提取,通常采用循环神经网络(RecurrentNeuralNetwork,RNN),RNN是处理具有时序关系的数据相关任务最成功的多层神经网络模型,样本出现的时间顺序对于自然语言处理来说非常重要,针对其他网络无法对时间序列上的变化进行建模的问题,RNN给予了很好的解决。很多现有模型对文本模态仅使用全连接层提取特征,忽略了文本的上下文信息以及丰富的语义信息,因此文本模型中使用RNN进行特征提取表征。其中,尤其是近些年在自然语言处理表现出卓越性能的LSTM和Transformer是我们可以优先考虑的模型选择。
4.如权利要求1所述的一种基于深度哈希的通用跨模态检索模型,其特征在于:二进制码转换模型通常采用多层全连接层将图像和文本特征映射为特定位数的二进制哈希码,其中...
【专利技术属性】
技术研发人员:段友祥,陈宁,孙歧峰,
申请(专利权)人:中国石油大学华东,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。