一种深度跨模态哈希检索方法及装置制造方法及图纸

技术编号：24091694 阅读：35 留言：0更新日期：2020-05-09 08:21

本申请公开了一种深度跨模态哈希检索方法及装置，方法包括：获取通过多个训练样本以及相似度矩阵预先生成的，包含注意力机制的哈希检索模型；通过哈希检索模型生成并存储，不同模态的各检索信息对应的哈希码；在接收包含有待检索目标的检索请求时，通过哈希检索模型输出待检索目标的哈希码；根据检索目标的哈希码，在存储的包含与检索目标不同模态的多个检索信息中，确定检索结果。通过包含有注意力机制的哈希检索模型，可以使得在哈希检索模型生成哈希码时，能够在接收到输入的信息时，有效区分冗余信息和值得关注的信息，并能够重点关注值得关注部分的信息，提高了生成的哈希码的质量，也提高了最终检索的精确度，提升了用户体验。

A deep cross modal hash retrieval method and device

全部详细技术资料下载

【技术实现步骤摘要】
一种深度跨模态哈希检索方法及装置
本申请涉及检索领域，具体涉及一种深度跨模态哈希检索方法及装置。
技术介绍
近年来，随着互联网的快速发展，多媒体数据(例如图片、文本、视频、音频等)呈现出爆炸式的增长。跨模态检索技术旨在根据已有的数据检索与之相匹配的不同模态的数据，例如我们可以通过文本信息在数据库中查找符合文字描述的图片信息。并且由于哈希码具有存储代价小，检索速度快等诸多优势，所以哈希方法也被广泛应用在跨模态检索任务中。现有技术中，对于各类信息，例如文本信息、图像信息等，信息中的背景、冗余信息和值得关注的信息，在训练生成哈希检索模型时处于相同的地位，这不仅使得训练哈希检索模型的效率不高，而且会导致最终生成的哈希码质量较低，影响最终的检索准确度。在判断两个不同模态的信息是否匹配、相似时，往往认为两个不同模态的信息中只要包含一个相同的标签就断定两者是匹配关系。但是在实际生活中，一个图片、文本可能包含非常丰富的内容，往往是存在多个标签，使得该判定方式就相对不合适。例如我们在检索文本“黑人洗碗”对应的图片时，一般的检索模型所检测出来的图片很大一部分只存在黑人或者是一个人在洗碗，有相当的信息丢失。
技术实现思路
为了解决上述问题，本申请提出了一种深度跨模态哈希检索方法，包括：获取通过多个训练样本以及相似度矩阵预先生成的，包含注意力机制的哈希检索模型，其中，所述训练样本包括多种模态，所述相似度矩阵根据不同的所述训练样本所包含的标签确定；通过所述哈希检索模型生成并存储，不同模态的各检索信息对应的哈...

【技术保护点】
1.一种深度跨模态哈希检索方法，其特征在于，包括：/n获取通过多个训练样本以及相似度矩阵预先生成的，包含注意力机制的哈希检索模型，其中，所述训练样本包括多种模态，所述相似度矩阵根据不同的所述训练样本所包含的标签确定；/n通过所述哈希检索模型生成并存储，不同模态的各检索信息对应的哈希码；/n在接收包含有待检索目标的检索请求时，通过所述哈希检索模型输出所述待检索目标的哈希码；/n根据所述检索目标的哈希码，在存储的包含与所述检索目标不同模态的多个所述检索信息中，确定检索结果。/n

【技术特征摘要】
1.一种深度跨模态哈希检索方法，其特征在于，包括：
获取通过多个训练样本以及相似度矩阵预先生成的，包含注意力机制的哈希检索模型，其中，所述训练样本包括多种模态，所述相似度矩阵根据不同的所述训练样本所包含的标签确定；
通过所述哈希检索模型生成并存储，不同模态的各检索信息对应的哈希码；
在接收包含有待检索目标的检索请求时，通过所述哈希检索模型输出所述待检索目标的哈希码；
根据所述检索目标的哈希码，在存储的包含与所述检索目标不同模态的多个所述检索信息中，确定检索结果。

2.根据权利要求1所述的方法，其特征在于，所述相似度矩阵的生成方法包括：
在所述多个训练样本中，确定不同模态的第一样本和第二样本；
确定所述第一样本和所述第二样本所拥有的标签的总数量，以及所述第一样本和所述第二样本所拥有的相同标签的数量；
根据所述相同标签的数量，以及所述总数量，确定所述第一样本与所述第二样本之间的相似程度，其中，所述相似程度至少包括完全不同、完全相同、部分相同；
根据所述相似程度，生成相似度矩阵。

3.根据权利要求2所述的方法，其特征在于，设所述第一样本为i，所述第二样本为j；
则其中，Sij为所述第一样本与所述第二样本之间的相似程度，且0≤Sij≤1，当Sij＝0时，所述相似程度为完全不同，当Sij＝1时，所述相似程度为完全相同，当0＜Sij＜1时，所述相似程度为部分相同；|Ci|和|Cj|分别为所述第一样本i和所述第二样本j所拥有的标签的数量，D(i，j)为所述第一样本i和所述第二样本j所拥有的相同标签的数量。

4.根据权利要求1所述的方法，其特征在于，训练生成所述哈希检索模型时，所述方法还包括：
通过不包含全连接层、且包含平均池化层的卷积神经网络提取模态为图片的训练样本的第一图像特征，并通过词袋提取模态为文本的训练样本的第一文本特征，其中，所述卷积神经网络的输出维度为训练样本集的标签的类别数。

5.根据...

【专利技术属性】
技术研发人员：姚洪磊，李锐，金长新，
申请(专利权)人：山东浪潮人工智能研究院有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人