【技术实现步骤摘要】
基于特征分离和重建的跨模态检索方法
[0001]本专利技术涉及一种跨模态检索方法,具体涉及一种基于特征分离和重建的跨模态检索方法。
技术介绍
[0002]随着多媒体的快速发展,互联网上有大量的信息,如图像、文本、视频、音频等。手工获取海量数据中不同模态之间的有用信息变得越来越困难。自然,我们需要一种强大的方法来帮助我们获得我们需要的文本、图像或视频。跨模态检索以数据的一种模态作为查询,检索另一种模态的相关数据。例如,我们可以使用文本来检索感兴趣的图像(就像我们在谷歌图像搜索上所做的那样),或者使用图像来检索相应的文本。当然,模态不限于图像和文本,其他模态如语音、物理信号和视频也可以作为跨模态检索的一个组成部分。
技术实现思路
[0003]为了更好地进行跨模态检索,本专利技术提供了一种基于特征分离和重建的跨模态检索方法。
[0004]本专利技术的目的是通过以下技术方案实现的:
[0005]一种基于特征分离和重建的跨模态检索方法,包括如下步骤:
[0006]步骤一、对于图像
‑r/>文本对中的图像本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于特征分离和重建的跨模态检索方法,其特征在于所述方法包括如下步骤:步骤一、对于图像
‑
文本对中的图像部分,使用ResNet152网络作为图像分支的基础图像网络,选择图像
‑
文本对中的图像作为图像分支的输入,直接从倒数第二个全连接层中提取图像特征,以获得视觉表示v;步骤二、对于图像
‑
文本对中的文本部分,使用词编码,将每个token编码为词向量,然后使用GRU作为文本分支的基础文本网络,将单词序列转化为文本表示l;步骤三、在分别获得视觉表示v和文本表示l之后,通过视觉和文本多层感知器进行线性变换,分别得到视觉空间和文本空间的特征向量;步骤四、将不同模态空间的特征向量分解为模态信息、语义信息、特定信息三部分,其中:(1)模态信息mo,表征特征向量的来源;(2)语义信息se,表征由特征向量表示的高层语义;(3)特定信息sp,表征不同模态特征所特有的信息;步骤五、利用特征分离模块将模态信息、语义信息和特定信息从视觉/文本表示中分离出来,得到视觉表示v和文本表示l的模态信息(v
mo
,l
mo
)、语义信息(v
se
,l
se
)和特定信息(v
sp
,l
sp
);步骤六、采用DCGAN的生成器和判别器分别作为图像重建的生成器G和判别器D1,引入判别器D2确定生成的图像在内容上是否与真实图像一致,结合图像三种不同的信息(v
mo
;v
se
;v
sp
)进行图像重建;步骤七、使用RNN解码文本三种...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。