【技术实现步骤摘要】
基于交叉注意哈希网络的图文检索方法及系统
[0001]本公开涉及数据检索相关
,具体的说,是涉及一种基于交叉注意哈希网络的图文检索方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,并不必然构成在先技术。
[0003]随着互联网上跨模态数据(如文本、图像、音频)的快速增长,跨模态检索因其在处理大规模媒体数据方面的应用而受到越来越多的关注。跨模态检索的关键问题是解决不同模态之间的“语义鸿沟”,即在不同模态的底层特征中寻找两种模态之间具有相似性的共享语义。
[0004]最新的研究证明了跨模态哈希检索的有效性,因为它具有检索速度快和存储成本低的优点。跨模态哈希的目的是学习不同模态样本的二进制哈希码。而与经典的哈希方法相比,跨模态哈希需要考虑不同模态间的差异。由于不同模态之间的异质性,捕捉不同模态之间的语义相关性仍然是一个具有挑战性的问题。
[0005]大多数现有的跨模态哈希方法都是在公共的汉明空间中捕获不同模态的语义相关性。有监督的跨模态哈希方法可以利用语义标签或相 ...
【技术保护点】
【技术特征摘要】
1.基于交叉注意哈希网络的图文检索方法,其特征在于,包括如下步骤:获取输入图像和文本,并进行特征提取;对提取的特征进行交叉注意,识别与共享语义相关的片段和删除不相关的片段,得到带有文本注意的图像特征和带有图像注意的文本特征;将分别带有交叉注意的图像和文本特征,进行哈希学习得到最优的二进制哈希码,然后进行相似性度量得到不同模态的检索结果。2.如权利要求1所述的基于交叉注意哈希网络的图文检索方法,其特征在于:特征提取,包括图像特征提取和文本特征提取,将图像和文本分别表示为一组区域特征和一组单词。3.如权利要求2所述的基于交叉注意哈希网络的图文检索方法,其特征在于:采用DenseNet模型对图像区域进行检测,提取图像特征;或DenseNet模型包括多个密集块和多个过渡层,其中密集块由多个卷积块交替连接组成,每一个卷积块都把前面所有层的输出特征图连接起来作为自己的输入,然后再把自己的输出输送给之后的所有层,过渡层用于控制通道数;或文本特征提取部分采用Bi
‑
GRU算法,包括如下步骤:将获取的文本分割成多个单词,并将每个单词进行编码成向量,并处理成设定的维度;将编码后的向量采用Bi
‑
GRU算法模型处理,提取对应单词向量前向和后向上下文信息,计算正向和反向隐藏状态的平均值作为文本表示,得到文本特征向量。4.如权利要求1所述的基于交叉注意哈希网络的图文检索方法,其特征在于:对提取的特征进行交叉注意,根据构建的评分函数计算相关片段的相关性,通过相关性筛选与共享语义相关的相关片段,抛弃不相关片段。5.如权利要求4所述的基于交叉注意哈希网络的图文检索方法,其特征在于:所述评分函数为:被比较片段i相较于其他片段j的重要性与其他比较片段j的置信度的乘积的加权和。6.如权利要求1所述的基于交叉注意哈希网络的图文检索方法,其特征在于:对提取的特征进行交叉注意,识别与共享语义相关的片段和删除不相关的片段,得到带有文本注意的图像特征和带有图像注意的文本特征的方法,包括图像到文本的交叉注意,以及文本到图像的交叉注意;或图像到文本的交叉注意,图像区域被固定为共享语义,需要为每个图像区域找到相关的文本词,包括如下步骤:为每个文本的单词预分配注意权重;根据每个单词相对于其他单词的预先分配的注意力情况,根据评分函数来对每个单词评分,确定每个单词的相关单词;通过重新归一化为相关单词重新分配注意力;将重新分配的注意力和文本在设定维度空间中的单词表示,进行加权求和,得到带有文本注意的图像特征;
或从文本到图像的注意,文本词被固定为共享语义,需要为每个文本词找到相...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。