【技术实现步骤摘要】
基于注意力网络对抗哈希的跨模态检索方法及设备
[0001]本专利技术涉及计算机技术中的跨模态图文检索领域,具体涉及一种基于注意力网络对抗哈希的跨模态检索方法及设备。
技术介绍
[0002]跨模态检索过程中,提取高质量的模态特征和实现快速准确的检索是当前研究的目标和方向。传统的基于手工特征的模型不能很好的提取不同模态数据的特征,而利用深度学习提取的模态特征有更强的表达能力。同时,共享注意力模块可以有效的学习高质量特征,关注相关信息,忽略不相关信息,产生更多的辨别特征,为哈希学习奠定基础。跨模态哈希因其快速检索的速度深受欢迎。跨模态哈希是利用特征提取器对不同模态数据进行特征提取,同时能够把模态特征中容易忽略的信息提取出来,通过学习它们的哈希变换,将这些数据信息投影到一个汉明空间,然后通过在这个空间中计算相似度,最终实现跨模态检索。然而,哈希学习方法没有充分探索哈希学习过程中模态的语义相关性,同时也没有充分考虑到数据的分布变化。因此,如何高效的提取带有掩码权重的注意力特征同时将对抗与哈希结合进行跨模态检索成为了一个需要思考的问题。 ...
【技术保护点】
【技术特征摘要】
1.一种基于注意力网络对抗哈希的跨模态检索方法,其特征在于,包括以下步骤:对成对的图文数据中的图像数据和文本数据提取初始特征;对初始特征学习掩码权重,获得用于检索任务的高质量的图文特征;具体的,将图像数据的初始全局特征和文本数据的初始全局特征作为共享注意力模块的输入,经过注意力模块处理,从而获得图像数据和文本数据的激活输出;将图像数据和文本数据的激活输出送到一个全连接层,分别得到图像数据和文本数据的最终特征表示;基于所述高质量的图文特征,利用模态判别器判断所述图文特征是图像特征还是文本特征,模态特征提取器和模态判别器以对抗式的方式相互作用,通过模态特征提取器学习到更好的图文特征;将所述图文特征作为哈希学习器的输入,利用哈希学习网络将更好的图文特征非线性的转换为二进制编码,即哈希码;将待查询图像数据或文本数据映射到公共汉明空间,在公共汉明空间经过计算查询数据的二进制编码和初始数据的二进制编码之间进行相似度测量,对相似度测量结果进行排序,获得前K个跨模态检索的结果。2.根据权利要求1所述的基于注意力网络对抗哈希的跨模态检索方法,其特征在于,对成对的图文数据中的图像数据和文本数据分别提取初始特征包括:对于图像数据采用在ImageNet上预训练好的ResNet
‑
101网络模型提取初始特征,从pool5层提取的2048维的特征向量,映射到1024维特征,并将此作为图像数据的初始全局特征P∈R
r
×
n
,P
i
=f(v
i
;θ
v
);对于文本数据,首先通过预处理得到词向量,然后将词向量作为双向长短期记忆神经网络的输入进行特征提取,并将其的输出作为文本数据的初始全局特征Q∈R
r
×
n
,Q
j
=f(t
j
;θ
t
)。3.根据权利要求1所述的基于注意力网络对抗哈希的跨模态检索方法,其特征在于,将图像数据的初始全局特征P
i
和文本数据的初始全局特征Q
j
作为共享注意力模块的输入,利用具有sigmoid激活函数的全连接层来构建f
mask
函数,学习特征图中每个位置的掩码权重,图像数据的掩码权重M
i
(v)和文本数据的掩码权重M
j
(t)为:M
i
(v)=f
mask
(P
i
)M
j
(t)=f
mask
(Q
j
)全连接层用于学习特征的非线性变换,提取数据的语义信息;sigmoid激活函数用于将图像数据的掩码权重M
i
(v)和文本数据的掩码权重M
j
(t)的值映射在[0,1]范围内;将图像数据的掩码权重M
i
(v)与图像数据的初始全局特征P
i
作内积操作,然后将内积得到的值与图像数据的初始全局特征P
i
作和操作,最终得到图像的激活输出H
i
(v);将文本数据的掩码权重M
j
(t)与文本数据的初始全局特征Q
j
作内积操作;然后将内积得到的值与文本数据的初始全局特征Q
j
作和操作,最终得到文本的激活输出H
j
(t);内积层的参数对于两个模态样本是共享的,图像的激活函数输出H
i
(v)和文本的激活输出H
j
(t)为:H
i
(v)=(1+M
i
(v))(P
i
)
H
j
(t)=(1+M
j
(t))(Q
j
)将图像的激活函数输出H
i
(v)和文本的激活输出H
j
(t)分别输入到一个全连接层,得到图像数据的最终特征表示和文本数据的最终特征表示4.根据权利要求1所述的基于注意力网络对抗哈希的跨模态检索方法,其特征在于,利用模态判别器判断所述图文特征是图像特征还是文本特征包括:利用一个三层的前馈神经网络对上述图像数据和文本数据的最终表示进行模态判别,模态判别器的输出即代表输入特征的模态,其中1代表的是图像数据特征,0代表的是文本数据特征;模态判别器用于正确区分样本的模态,即输入的样本特征属于图像样本特征还是文本样本特征,图像样本特征和文本样本特征的差异为相应的损失,损失...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。