一种深度跨模态哈希检索方法及装置制造方法及图纸

技术编号:24091694 阅读:35 留言:0更新日期:2020-05-09 08:21
本申请公开了一种深度跨模态哈希检索方法及装置,方法包括:获取通过多个训练样本以及相似度矩阵预先生成的,包含注意力机制的哈希检索模型;通过哈希检索模型生成并存储,不同模态的各检索信息对应的哈希码;在接收包含有待检索目标的检索请求时,通过哈希检索模型输出待检索目标的哈希码;根据检索目标的哈希码,在存储的包含与检索目标不同模态的多个检索信息中,确定检索结果。通过包含有注意力机制的哈希检索模型,可以使得在哈希检索模型生成哈希码时,能够在接收到输入的信息时,有效区分冗余信息和值得关注的信息,并能够重点关注值得关注部分的信息,提高了生成的哈希码的质量,也提高了最终检索的精确度,提升了用户体验。

A deep cross modal hash retrieval method and device

【技术实现步骤摘要】
一种深度跨模态哈希检索方法及装置
本申请涉及检索领域,具体涉及一种深度跨模态哈希检索方法及装置。
技术介绍
近年来,随着互联网的快速发展,多媒体数据(例如图片、文本、视频、音频等)呈现出爆炸式的增长。跨模态检索技术旨在根据已有的数据检索与之相匹配的不同模态的数据,例如我们可以通过文本信息在数据库中查找符合文字描述的图片信息。并且由于哈希码具有存储代价小,检索速度快等诸多优势,所以哈希方法也被广泛应用在跨模态检索任务中。现有技术中,对于各类信息,例如文本信息、图像信息等,信息中的背景、冗余信息和值得关注的信息,在训练生成哈希检索模型时处于相同的地位,这不仅使得训练哈希检索模型的效率不高,而且会导致最终生成的哈希码质量较低,影响最终的检索准确度。在判断两个不同模态的信息是否匹配、相似时,往往认为两个不同模态的信息中只要包含一个相同的标签就断定两者是匹配关系。但是在实际生活中,一个图片、文本可能包含非常丰富的内容,往往是存在多个标签,使得该判定方式就相对不合适。例如我们在检索文本“黑人洗碗”对应的图片时,一般的检索模型所检测出来的图片很大一部分只存在黑人或者是一个人在洗碗,有相当的信息丢失。
技术实现思路
为了解决上述问题,本申请提出了一种深度跨模态哈希检索方法,包括:获取通过多个训练样本以及相似度矩阵预先生成的,包含注意力机制的哈希检索模型,其中,所述训练样本包括多种模态,所述相似度矩阵根据不同的所述训练样本所包含的标签确定;通过所述哈希检索模型生成并存储,不同模态的各检索信息对应的哈希码;在接收包含有待检索目标的检索请求时,通过所述哈希检索模型输出所述待检索目标的哈希码;根据所述检索目标的哈希码,在存储的包含与所述检索目标不同模态的多个所述检索信息中,确定检索结果。在一个示例中,所述相似度矩阵的生成方法包括:在所述多个训练样本中,确定不同模态的第一样本和第二样本;确定所述第一样本和所述第二样本所拥有的标签的总数量,以及所述第一样本和所述第二样本所拥有的相同标签的数量;根据所述相同标签的数量,以及所述总数量,确定所述第一样本与所述第二样本之间的相似程度,其中,所述相似程度至少包括完全不同、完全相同、部分相同;根据所述相似程度,生成相似度矩阵。在一个示例中,设所述第一样本为i,所述第二样本为j;则其中,Sij为所述第一样本与所述第二样本之间的相似程度,且0≤Sij≤1,当Sij=0时,所述相似程度为完全不同,当Sij=1时,所述相似程度为完全相同,当0<Sij<1时,所述相似程度为部分相同;|Ci|和|Cj|分别为所述第一样本i和所述第二样本j所拥有的标签的数量,D(i,j)为所述第一样本i和所述第二样本j所拥有的相同标签的数量。在一个示例中,训练生成所述哈希检索模型时,所述方法还包括:通过不包含全连接层、且包含平均池化层的卷积神经网络提取模态为图片的训练样本的第一图像特征,并通过词袋提取模态为文本的训练样本的第一文本特征,其中,所述卷积神经网络的输出维度为训练样本集的标签的类别数。在一个示例中,训练生成所述哈希检索模型时,所述方法还包括:通过所述卷积神经网络对图片进行分类,并将最后一层的卷积层作为注意力图;将所述注意力图中激活值最高的区域作为注意力区域。在一个示例中,训练生成所述哈希检索模型时,所述方法还包括:根据所述第一图像特征与所述注意力图得到中间结果,并将所述中间结果输入全连接层后得到第二图像特征;将所述第一文本特征输入全连接层后得到第二文本特征;通过损失函数以及所述注意力区域训练生成包含注意力机制的哈希检索模型,其中,所述损失函数与所述第二图像特征、所述第二文本特征相关。在一个示例中,设所述损失函数为L,则Fi为第二图像特征,Fj为第二文本特征,L2为量化损失,L3为平衡损失。在一个示例中,根据所述检索目标的哈希码,在存储的包含与所述检索目标不同模态的多个所述检索信息中,确定检索结果,包括:在存储的包含与所述检索目标不同模态的多个所述检索信息中,按照所述检索信息的哈希码与所述检索目标的哈希码之间的接近程度,从高到低的选取若干个检索信息作为检索结果。在一个示例中,所述接近程度通过海明距离确定。另一方面,本申请还提出了一种深度跨模态哈希检索装置,包括:获取模块,获取通过多个训练样本以及相似度矩阵预先生成的,包含注意力机制的哈希检索模型,其中,所述训练样本包括多种模态,所述相似度矩阵根据不同的所述训练样本所包含的标签确定;生成模块,通过所述哈希检索模型生成并存储,不同模态的各检索信息对应的哈希码;输出模块,在接收包含有待检索目标的检索请求时,通过所述哈希检索模型输出所述待检索目标的哈希码;处理模块,根据所述检索目标的哈希码,在存储的包含与所述检索目标不同模态的多个所述检索信息中,确定检索结果。通过本申请提出哈希检索方法能够带来如下有益效果:通过包含有注意力机制的哈希检索模型,可以使得在哈希检索模型生成哈希码时,能够在接收到输入的信息时,有效区分冗余信息和值得关注的信息,并能够重点关注值得关注部分的信息,提高了生成的哈希码的质量,也提高了最终检索的精确度,提升了用户体验。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例中深度跨模态哈希检索方法的流程示意图;图2为本申请实施例中深度跨模态哈希检索装置的模块示意图;图3为本申请实施例中训练哈希检索模型的示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。以下结合附图,详细说明本申请各实施例提供的技术方案。如图1所示,本申请实施例提供一种深度跨模态哈希检索方法,包括:S101、获取通过多个训练样本以及相似度矩阵预先生成的,包含注意力机制的哈希检索模型,其中,所述训练样本包括多种模态,所述相似度矩阵根据不同的所述训练样本所包含的标签确定。首先采集多个训练样本,用于对哈希检索模型的训练。在采集时,需要采集多个模态的训练样本。通常情况下,用户使用检索工具进行检索时,最多使用的功能为通过文本来寻找相应的图片,或者对图片进行识图以获取相应的文本信息。因此,在此以图像模态和文本模态为例进行解释说明。其中,此处的图片包括静态图片和动态图片,当图片为动态图片时,可以将其当做多个静态图片的合集。当然,训练样本的模态还可以包括视频、音频等,在此不再赘述。在采集到了多个训练样本后,可以通过这多个训练样本之间的相似程度来生成相似度矩阵。其中,相似程度是根据训练样本所包含的标签确定的,相似程度至少包括完全不同本文档来自技高网...

【技术保护点】
1.一种深度跨模态哈希检索方法,其特征在于,包括:/n获取通过多个训练样本以及相似度矩阵预先生成的,包含注意力机制的哈希检索模型,其中,所述训练样本包括多种模态,所述相似度矩阵根据不同的所述训练样本所包含的标签确定;/n通过所述哈希检索模型生成并存储,不同模态的各检索信息对应的哈希码;/n在接收包含有待检索目标的检索请求时,通过所述哈希检索模型输出所述待检索目标的哈希码;/n根据所述检索目标的哈希码,在存储的包含与所述检索目标不同模态的多个所述检索信息中,确定检索结果。/n

【技术特征摘要】
1.一种深度跨模态哈希检索方法,其特征在于,包括:
获取通过多个训练样本以及相似度矩阵预先生成的,包含注意力机制的哈希检索模型,其中,所述训练样本包括多种模态,所述相似度矩阵根据不同的所述训练样本所包含的标签确定;
通过所述哈希检索模型生成并存储,不同模态的各检索信息对应的哈希码;
在接收包含有待检索目标的检索请求时,通过所述哈希检索模型输出所述待检索目标的哈希码;
根据所述检索目标的哈希码,在存储的包含与所述检索目标不同模态的多个所述检索信息中,确定检索结果。


2.根据权利要求1所述的方法,其特征在于,所述相似度矩阵的生成方法包括:
在所述多个训练样本中,确定不同模态的第一样本和第二样本;
确定所述第一样本和所述第二样本所拥有的标签的总数量,以及所述第一样本和所述第二样本所拥有的相同标签的数量;
根据所述相同标签的数量,以及所述总数量,确定所述第一样本与所述第二样本之间的相似程度,其中,所述相似程度至少包括完全不同、完全相同、部分相同;
根据所述相似程度,生成相似度矩阵。


3.根据权利要求2所述的方法,其特征在于,设所述第一样本为i,所述第二样本为j;
则其中,Sij为所述第一样本与所述第二样本之间的相似程度,且0≤Sij≤1,当Sij=0时,所述相似程度为完全不同,当Sij=1时,所述相似程度为完全相同,当0<Sij<1时,所述相似程度为部分相同;|Ci|和|Cj|分别为所述第一样本i和所述第二样本j所拥有的标签的数量,D(i,j)为所述第一样本i和所述第二样本j所拥有的相同标签的数量。


4.根据权利要求1所述的方法,其特征在于,训练生成所述哈希检索模型时,所述方法还包括:
通过不包含全连接层、且包含平均池化层的卷积神经网络提取模态为图片的训练样本的第一图像特征,并通过词袋提取模态为文本的训练样本的第一文本特征,其中,所述卷积神经网络的输出维度为训练样本集的标签的类别数。


5.根据...

【专利技术属性】
技术研发人员:姚洪磊李锐金长新
申请(专利权)人:山东浪潮人工智能研究院有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1