多粒度特征融合的跨模态图文检索方法技术

技术编号：34891284 阅读：69 留言：0更新日期：2022-09-10 13:50

本发明专利技术公开了一种多粒度特征融合的跨模态图文检索方法，解决了现有跨模态检索方法不能全面提取模态数据的信息，且不能在跨模态数据间进行细粒度信息交互的技术问题，实现包括：建立图文检索数据集；图文特征提取；构建基于注意力的细粒度跨模态交互网络和多粒度特征融合网络；使用联合损失函数对交互网络和融合网络进行训练，完成图文的双向检索。本发明专利技术使用预训练模型提取特征，用特征融合网络学习更强大的特征表示，使得本发明专利技术构建的跨模态检索模型在双路编码结构下具有较高的检索效率和精度，本发明专利技术检索精度和效率高，应用于人工智能领域，如信息推荐和信息检索等。如信息推荐和信息检索等。如信息推荐和信息检索等。

全部详细技术资料下载

【技术实现步骤摘要】
多粒度特征融合的跨模态图文检索方法

[0001]本专利技术属于人工智能
，主要涉及跨模态图文检索，具体是一种多粒度特征融合的跨模态图文检索方法，用于对不同模态的数据进行匹配，以在海量信息中为用户提供精准的多模态检索服务。

技术介绍

[0002]信息时代，计算机发展迅速，网上购物、网上工作和网上学习也成为人们生活的常态。越来越多的用户参与到与互联网的交互过程，促进了文本、图像、音视频等多种媒体数据的增长和跨模态数据的表示。跨模态检索是指用一种模态信息全方位获取该对象其他模态的信息，同时处理不同模态的数据，寻找它们的内在关联并完成相似性的度量。具体而言是指利用其中一种数据模态作为查询对象来检索具有相似语义的另一种数据模态的内容，跨模态检索技术能有效满足人们对信息检索方式多样化的需要，更为方便的为用户提供服务。
[0003]现有很多跨模态检索网络模型存在精度不高，或不能很好的学习单模态数据的高级语义特征以及不能捕获不同模态数据之间的高层语义关系。现有的图像文本检索的主要方法分为三类，公共特征空间学习法、跨模态相似性度量法和跨模态预训练模型微调法。
[0004]公共特征空间学习法采用两个独立的深度编码网络分别对图像和文本进行编码，投影到相同的特征空间进行相似性度量。计华、王冠华等人在其申请专利“一种基于图正则化与模态独立的跨模态数据检索方法及系统”中通过定义特征投影矩阵的图正则化项来优化目标函数，不同模态数据投影到公共子空间来进行相似度计算。Yiling Wu,Shuhui Wang,Guoli Son...

【技术保护点】

【技术特征摘要】
1.一种多粒度特征融合的跨模态图文检索方法，其特征在于，包括有以下步骤：(1)建立图文检索数据集：收集图像和其对应的文字描述作为样本，每个样本是由一张图片和与图片对应的文字描述共同组成，简称为图像文本对样本；建立跨模态检索数据集，分为训练集、验证集与测试集；(2)样本的图文特征提取：对训练集、验证集和测试集所有样本中的每张图片，使用Faster
‑
RCNN提取每张图片的k个区域特征，即局部特征，使用预训练模型Vilt提取每张图片的全局特征；对于样本中的图像所对应的文字描述，使用Bert提取文字描述文本中每个单词的特征，得到局部特征，在局部特征后连接门控循环单元GRU，进行池化，得到文字描述的全局特征；通过对每个样本中图像文本对的各自的特征提取，分别得到训练集、验证集和测试集中所有的样本的图像和文字描述各自对应的局部特征和全局特征，并分别保存；每个数据集包含4个特征文件，总共为12个特征文件；(3)构建基于注意力的细粒度跨模态交互网络：构建基于注意力机制的细粒度跨模态交互网络，交互网络输入为一个样本中的图像和文字描述各自的局部特征，交互网络依次连接有用于图像和文字描述的联合特征表示的全连接层、基于注意力的特征交互层、图像和文字描述的交互特征输出层，特征交互层用于捕捉数据内部的相关性，进行跨模态数据的细粒度交互，将图像和文字描述的交互特征输出层的输出特征作为交互网络输出，交互网络输出即为细粒度跨模态交互后的图像和文字描述各自的局部特征；(4)构建多粒度特征融合网络：构建多粒度特征融合网络对图像和文字描述的不同粒度的特征进行融合，融合网络输入为并行输入的四个特征，即图像和文字描述各自的局部特征和全局特征，其中，局部特征为跨模态交互网络的输出，全局特征输入来自训练集的全局特征文件；多粒度特征融合网络包括图像特征融合和文本特征融合两个子网络，两个子网络的并行输出即为融合网络输出；两个子网络并行独立存在，图像特征融合子网络将图像的全局特征嵌入到与局部特征相同的维度之后，通过注意力机制来平衡全局特征和局部特征的相对贡献，最后平均池化后得到最终的图像嵌入I；文本特征融合子网络的将文字描述的全局特征嵌入到与局部特征相同的维度之后，用全局特征去引导局部特征，最后平均池化后得到最终的文本嵌入T；图像嵌入I为图像特征融合子网络的输出，文本嵌入T为文本特征融合子网络的输出，两个输出为多粒度特征融合网络的并行输出；(5)使用联合损失函数同时对所构建的交互网络和融合网络进行训练：定义联合损失函数为三元组损失、角损失和文本生成损失之和，使用联合损失函数对跨模态交互网络和多粒度特征融合网络同时进行训练，通过角损失的影响因子θ来约束角损失对整个损失的影响，增大正负样本之间的距离，更新网络参数；(6)完成图像和文本的双向检索：使用图像去检索对应的文字描述时，将测试集中的每张图像与其对应的文字描述作为样本输入到网络模型中得到图像和文字描述各自的编码表示，对于每张图像，使用欧氏距离函数计算与所有文字描述的相似度大小，距离越小则相似度越高，最相似的特征所对应的文本描述即为检索结果；使用文字描述去检索对应的图像时，将测试集所有文字描述与测试集中所有的图像作为样本输入到网络模型中得到文字描述和图像各自的编码表示，对于每句文字描述，同样使用欧氏距离函数计算与所有图像的相似度大小，最相似的图像特征所对应的图像即为检索结果；统计测试集中所有图像和文字描述的检索准确率，完成多粒度特征融合的跨模态图文检索。
2.根据权利要求1中所述的多粒度特征融合的跨模态图文检索方法，其特征在于，步骤(3)所述的构建基于注意力的细粒度跨模态交互网络，包括有如下步骤：3a)构建用于图像和文字描述的联合特征表示的全连接层：在构建的基于注意力的细粒度跨模态交互网络，交互网络的输入为一个样本中的图像和文字描述各自的局部特征，首先构建用于图像和文字描述的联合特征表示的全连接层，该全连接层由并行的两个不同的全连接层构成，两个并行的全连接层分别用于图像和文字描述两个模态的嵌入，将样本中的图像局部特征和对应文字描述的局部特征并行嵌入到相同的语义空间，在该语义空间中，图像的第i个局部区域特征表...

【专利技术属性】
技术研发人员：王笛，田玉敏，万波，田佳博，王泉，罗雪梅，王义峰，吴自力，赵辉，潘蓉，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人