多粒度特征融合的跨模态图文检索方法技术

技术编号:34891284 阅读:69 留言:0更新日期:2022-09-10 13:50
本发明专利技术公开了一种多粒度特征融合的跨模态图文检索方法,解决了现有跨模态检索方法不能全面提取模态数据的信息,且不能在跨模态数据间进行细粒度信息交互的技术问题,实现包括:建立图文检索数据集;图文特征提取;构建基于注意力的细粒度跨模态交互网络和多粒度特征融合网络;使用联合损失函数对交互网络和融合网络进行训练,完成图文的双向检索。本发明专利技术使用预训练模型提取特征,用特征融合网络学习更强大的特征表示,使得本发明专利技术构建的跨模态检索模型在双路编码结构下具有较高的检索效率和精度,本发明专利技术检索精度和效率高,应用于人工智能领域,如信息推荐和信息检索等。如信息推荐和信息检索等。如信息推荐和信息检索等。

【技术实现步骤摘要】
多粒度特征融合的跨模态图文检索方法


[0001]本专利技术属于人工智能
,主要涉及跨模态图文检索,具体是一种多粒度特征融合的跨模态图文检索方法,用于对不同模态的数据进行匹配,以在海量信息中为用户提供精准的多模态检索服务。

技术介绍

[0002]信息时代,计算机发展迅速,网上购物、网上工作和网上学习也成为人们生活的常态。越来越多的用户参与到与互联网的交互过程,促进了文本、图像、音视频等多种媒体数据的增长和跨模态数据的表示。跨模态检索是指用一种模态信息全方位获取该对象其他模态的信息,同时处理不同模态的数据,寻找它们的内在关联并完成相似性的度量。具体而言是指利用其中一种数据模态作为查询对象来检索具有相似语义的另一种数据模态的内容,跨模态检索技术能有效满足人们对信息检索方式多样化的需要,更为方便的为用户提供服务。
[0003]现有很多跨模态检索网络模型存在精度不高,或不能很好的学习单模态数据的高级语义特征以及不能捕获不同模态数据之间的高层语义关系。现有的图像文本检索的主要方法分为三类,公共特征空间学习法、跨模态相似性度量法和跨模态预训练模型微调法。
[0004]公共特征空间学习法采用两个独立的深度编码网络分别对图像和文本进行编码,投影到相同的特征空间进行相似性度量。计华、王冠华等人在其申请专利“一种基于图正则化与模态独立的跨模态数据检索方法及系统”中通过定义特征投影矩阵的图正则化项来优化目标函数,不同模态数据投影到公共子空间来进行相似度计算。Yiling Wu,Shuhui Wang,Guoli Song等人在其论文“Learning Fragment Self

Attention Embeddings for Image

Text Matching”中通过自注意力机制分别学习图像和文本的模态内数据相关性增强语义嵌入。上述现有技术虽然利用了样本的细粒度信息但是并未在模态间进行信息交互,且没有充分利用样本的全局语义信息,因此导致该类方法的检索性能不佳。
[0005]跨模态相似性度量方法通过隐层去学习相似性的计算方法。王文敏、夏雅娴等人在其申请专利“一种基于双语义空间的对抗性跨媒体检索方法”中分别保留不同模态内部特征,通过对抗网络挖掘数据中的语义信息来实现跨膜检索。程起敏、周玉琢等人在其申请专利“一种基于门控注意力机制和门控机制的图文检索方法和系统”中通过将两种模态的数据互相作为监督信息,并引入门控机制去过滤不必要的信息,从而获取具有通用语义和准确注意力的模态特征。Haiwen Diao,Ying Zhang,Lin Ma,Huchuan Lu等人在发表论文“Similarity Reasoning and Filtration for Image

Text Matching”中使用相似性向量代替相似性标量,捕获更加细节的模态间的关系。上述现有方法学习了新的相似性度量方法,充分进行了模态间的交互,因此导致此类方法虽然有较好的检索性能,但是模型复杂,检索效率低下,实际应用困难。
[0006]在跨模态预训练模型的发展中,YenChun Chen,Linjie Li,Licheng Yu等人2020年在其发表论文“Uniter:Universal image text representation learning”中使用三个
预训练任务和更大的数据集学习通用的视觉语言表示,在9个下游任务上1表现优异。Fei Yu,Jiji Tang,Weichong Yin等人在2021年发表论文“ERNIE

ViL:Knowledge Enhanced Vision Language Representations Through Scene Graph”中首次把场景图知识加入到预训练模型当中,更精准的把握图像文本的细粒度对齐信息。然而这些跨模态预训练模型虽然在数据集上表现出色,但训练时间漫长,模型更为庞大,实际应用极为不便。
[0007]综上,现有的基于深度学习的跨模态检索方法存在忽略了数据不同粒度信息之间的关系问题,且在追求高精度性能的同时往往导致模型复杂,检索效率低下,实际应用难以部署。

技术实现思路

[0008]本专利技术针对现有技术存在的不足和问题,提出一种能够融合单模态下不同粒度的语义信息,并且能够在细粒度层次上进行模态交互的多粒度特征融合的跨模态图文检索方法。
[0009]本专利技术是一种多粒度特征融合的跨模态图文检索方法,其特征在于,包括以下步骤:
[0010](1)建立图文检索数据集:收集图像和其对应的文字描述作为样本,每个样本是由一张图片和与图片对应的文字描述共同组成,简称为图像文本对样本;建立跨模态检索数据集,分为训练集、验证集与测试集;
[0011](2)样本的图文特征提取:对训练集、验证集和测试集所有样本中的每张图片,使用Faster

RCNN提取每张图片的k个区域特征,即局部特征,使用预训练模型Vilt提取每张图片的全局特征;对于样本中的图像所对应的文字描述,使用Bert提取文字描述文本中每个单词的特征,得到局部特征,在局部特征后连接自动编码器GRU,进行池化,得到文字描述的全局特征;通过对每个样本中图像文本对的各自的特征提取,分别得到训练集、验证集和测试集中所有的样本的图像和文字描述各自对应的局部特征和全局特征,并分别保存,每个数据集包含4个特征文件,总共为12个特征文件;
[0012](3)构建基于注意力的细粒度跨模态交互网络:构建基于注意力机制的细粒度跨模态交互网络,交互网络输入为一个样本中的图像和文字描述各自的局部特征,交互网络依次连接有用于图像和文字描述的联合特征表示的全连接层、基于注意力的特征交互层、图像和文字描述的交互特征输出层,特征交互层用于捕捉数据内部的相关性,进行跨模态数据的细粒度交互,将图像和文字描述的交互特征输出层的输出特征作为交互网络输出,交互网络输出即为细粒度跨模态交互后的图像和文字描述各自的局部特征;
[0013](4)构建多粒度特征融合网络:构建多粒度特征融合网络对图像和文字描述的不同粒度的特征进行融合,融合网络输入为并行输入的四个特征,即图像和文字描述各自的局部特征和全局特征,其中,局部特征为跨模态交互网络的输出,全局特征输入来自训练集的全局特征文件;多粒度特征融合网络包括图像特征融合和文本特征融合两个子网络,两个子网络的并行输出即为融合网络输出;两个子网络并行独立存在,图像特征融合子网络将图像的全局特征嵌入到与局部特征相同的维度之后,通过注意力机制来平衡全局特征和局部特征的相对贡献,最后平均池化后得到最终的图像嵌入I。文本特征融合子网络的将文字描述的全局特征嵌入到与局部特征相同的维度之后,用全局特征去引导局部特征,最后
平均池化后得到最终的文本嵌入T;图像嵌入I为图像特征融合子网络的输出,文本嵌入T为文本特征融合子网络的输出,两个输出为多粒度特征融合网络的并行输出;
[0014](5)使用联合损失函数同时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多粒度特征融合的跨模态图文检索方法,其特征在于,包括有以下步骤:(1)建立图文检索数据集:收集图像和其对应的文字描述作为样本,每个样本是由一张图片和与图片对应的文字描述共同组成,简称为图像文本对样本;建立跨模态检索数据集,分为训练集、验证集与测试集;(2)样本的图文特征提取:对训练集、验证集和测试集所有样本中的每张图片,使用Faster

RCNN提取每张图片的k个区域特征,即局部特征,使用预训练模型Vilt提取每张图片的全局特征;对于样本中的图像所对应的文字描述,使用Bert提取文字描述文本中每个单词的特征,得到局部特征,在局部特征后连接门控循环单元GRU,进行池化,得到文字描述的全局特征;通过对每个样本中图像文本对的各自的特征提取,分别得到训练集、验证集和测试集中所有的样本的图像和文字描述各自对应的局部特征和全局特征,并分别保存;每个数据集包含4个特征文件,总共为12个特征文件;(3)构建基于注意力的细粒度跨模态交互网络:构建基于注意力机制的细粒度跨模态交互网络,交互网络输入为一个样本中的图像和文字描述各自的局部特征,交互网络依次连接有用于图像和文字描述的联合特征表示的全连接层、基于注意力的特征交互层、图像和文字描述的交互特征输出层,特征交互层用于捕捉数据内部的相关性,进行跨模态数据的细粒度交互,将图像和文字描述的交互特征输出层的输出特征作为交互网络输出,交互网络输出即为细粒度跨模态交互后的图像和文字描述各自的局部特征;(4)构建多粒度特征融合网络:构建多粒度特征融合网络对图像和文字描述的不同粒度的特征进行融合,融合网络输入为并行输入的四个特征,即图像和文字描述各自的局部特征和全局特征,其中,局部特征为跨模态交互网络的输出,全局特征输入来自训练集的全局特征文件;多粒度特征融合网络包括图像特征融合和文本特征融合两个子网络,两个子网络的并行输出即为融合网络输出;两个子网络并行独立存在,图像特征融合子网络将图像的全局特征嵌入到与局部特征相同的维度之后,通过注意力机制来平衡全局特征和局部特征的相对贡献,最后平均池化后得到最终的图像嵌入I;文本特征融合子网络的将文字描述的全局特征嵌入到与局部特征相同的维度之后,用全局特征去引导局部特征,最后平均池化后得到最终的文本嵌入T;图像嵌入I为图像特征融合子网络的输出,文本嵌入T为文本特征融合子网络的输出,两个输出为多粒度特征融合网络的并行输出;(5)使用联合损失函数同时对所构建的交互网络和融合网络进行训练:定义联合损失函数为三元组损失、角损失和文本生成损失之和,使用联合损失函数对跨模态交互网络和多粒度特征融合网络同时进行训练,通过角损失的影响因子θ来约束角损失对整个损失的影响,增大正负样本之间的距离,更新网络参数;(6)完成图像和文本的双向检索:使用图像去检索对应的文字描述时,将测试集中的每张图像与其对应的文字描述作为样本输入到网络模型中得到图像和文字描述各自的编码表示,对于每张图像,使用欧氏距离函数计算与所有文字描述的相似度大小,距离越小则相似度越高,最相似的特征所对应的文本描述即为检索结果;使用文字描述去检索对应的图像时,将测试集所有文字描述与测试集中所有的图像作为样本输入到网络模型中得到文字描述和图像各自的编码表示,对于每句文字描述,同样使用欧氏距离函数计算与所有图像的相似度大小,最相似的图像特征所对应的图像即为检索结果;统计测试集中所有图像和文字描述的检索准确率,完成多粒度特征融合的跨模态图文检索。
2.根据权利要求1中所述的多粒度特征融合的跨模态图文检索方法,其特征在于,步骤(3)所述的构建基于注意力的细粒度跨模态交互网络,包括有如下步骤:3a)构建用于图像和文字描述的联合特征表示的全连接层:在构建的基于注意力的细粒度跨模态交互网络,交互网络的输入为一个样本中的图像和文字描述各自的局部特征,首先构建用于图像和文字描述的联合特征表示的全连接层,该全连接层由并行的两个不同的全连接层构成,两个并行的全连接层分别用于图像和文字描述两个模态的嵌入,将样本中的图像局部特征和对应文字描述的局部特征并行嵌入到相同的语义空间,在该语义空间中,图像的第i个局部区域特征表...

【专利技术属性】
技术研发人员:王笛田玉敏万波田佳博王泉罗雪梅王义峰吴自力赵辉潘蓉
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1