基于语义增强的跨模态检索方法及装置、存储介质和终端制造方法及图纸

技术编号:34263495 阅读:23 留言:0更新日期:2022-07-24 14:22
本发明专利技术公开了一种基于语义增强的跨模态检索方法及装置、存储介质和终端,其中方法包括构建跨模态检索模型,并基于图文检索数据训练集对跨模态检索模型进行训练以获取训练后的跨模态检索模型;确定目标查询数据和目标模态数据集,基于训练后的跨模态检索模型获取目标查询数据与每个目标模态数据之间的整体语义相似度;在目标模态数据集中依据整体语义相似度从大到小的顺序选取预设个数的整体语义相似度对应的目标模态数据,并确定检索结果。本发明专利技术方法充分挖掘了图像模态数据和文本模态数据的多层语义信息,将语义信息用于增强多模态数据的特征表示,并在多层语义的基础上实现细粒度的跨模态对齐,从而增强多模态数据之间的语义相关性。间的语义相关性。间的语义相关性。

Cross modal retrieval method and device, storage medium and terminal based on semantic enhancement

【技术实现步骤摘要】
基于语义增强的跨模态检索方法及装置、存储介质和终端


[0001]本专利技术涉及跨模态检索
,尤其涉及一种基于语义增强的跨模态检索方法及装置、存储介质和终端。

技术介绍

[0002]随着互联网和社交媒体的发展,文本和图像等多模态数据呈现爆炸式的增长,面对如此庞大且内容丰富的多模态数据,用户不仅希望能够做到单模态的数据搜索(例如用文本搜索文本或者用图像搜索图像),更希望能够用一种模态数据取检索出另一种模态的数据,即跨模态检索。同时计算机要想更好的理解环境,就需要具备解析多模态信息的能力。跨模态检索能够促进传统搜索引擎的发展,提升用户的搜索体验,因此对跨模态检索问题展开研究具有重要意义。
[0003]不同于单模态检索任务,跨模态检索任务既需要使用计算机视觉技术理解视觉图像,也需要使用自然语言处理技术实现对文本的理解,因此存在较大的挑战。跨模态检索的主要难点是增强多模态数据的语义判别度,减小多模态数据之间的语义鸿沟。随着深度学习技术的发展,目前研究者已经提出多种方法用于实现跨模态检索任务。比如基于全局的跨模态检索方法:该方法通过端到端的方式将原始的图像和文本映射到公共的子空间,并在子空间中直接计算图像和文本特征之间的相似度,然而这些方法只简单的建立了图像和文本的全局上下文对齐,忽略了图像区域和文本单词之间细粒度的对齐。再比如基于局部的跨模态检索方法:相比于仅仅使用全局的语义信息,这类方法将图像用目标检测器提取出区域特征,将文本用文本编码器提取出单词级的特征,并建立局部的多模态语义信息,然而这些方法忽略了建立多层的语义信息,从而缺少关系推理和属性认知能力。最后比如基于图神经网络的跨模态检索方法:该方法将图像构建成图的形式,通过信息游走将邻居节点的信息集成到中心节点上,从而增强模型的关系推理能力,然而这些方法只关注于图像的关系语义,忽略了建立文本的关系信息。

技术实现思路

[0004]本专利技术所要解决的技术问题是现有跨模态检索方法对多模态数据的语义信息挖掘不充分、特征表示能力差、跨模态对齐粒度不够精细,进而导致检索准确度较低。
[0005]为了解决上述技术问题,本专利技术提供了一种基于语义增强的跨模态检索方法,包括:
[0006]构建跨模态检索模型,并基于图文检索数据训练集对所述跨模态检索模型进行训练以获取训练后的跨模态检索模型;
[0007]确定目标查询数据和目标检索数据库中的目标模态数据集,基于所述训练后的跨模态检索模型获取所述目标查询数据与所述目标模态数据集中每个目标模态数据之间的整体语义相似度;
[0008]在所述目标模态数据集中依据所述整体语义相似度从大到小的顺序选取预设个
数的所述整体语义相似度对应的所述目标模态数据,并将预设个数的目标模态数据按对应所述整体语义相似度从大到小的顺序作为检索结果;
[0009]其中,所述图文检索数据训练集包括多个图像模态数据和多个文本模态数据,所述目标查询数据的模态与所述目标模态数据集中目标模态数据的模态不同;
[0010]所述跨模态检索模型包括特征提取单元、语义增强单元、细粒度跨模态对齐单元和语义相似度单元,所述特征提取单元包括图像特征提取子单元和文本特征提取子单元,所述语义增强单元包括图像语义增强子单元和文本语义增强子单元;
[0011]所述图像特征提取子单元,用于对图像模态数据进行特征提取,以获取所述图像模态数据的图像区域特征、图像关系语义和图像属性语义;
[0012]所述文本特征提取子单元,用于对文本模态数据进行特征提取,以获取所述文本模态数据的文本单词特征、文本关系语义和文本属性语义;
[0013]所述图像语义增强子单元,用于将所述图像关系语义集成到所述图像区域特征上,以获取所述图像模态数据的关系语义增强的图像特征,并将所述图像属性语义集成到所述图像区域特征上,以获取所述图像模态数据的属性语义增强的图像特征;
[0014]所述文本语义增强子单元,用于将所述文本关系语义集成到所述文本单词特征上,以获取所述文本模态数据的关系语义增强的文本特征,并将所述文本属性语义集成到所述文本单词特征上,以获取所述文本模态数据的属性语义增强的文本特征;
[0015]所述细粒度跨模态对齐单元,用于将所述关系语义增强的图像特征和所述关系语义增强的文本特征进行跨模态对齐,以获取对应的关系层表示,并将所述属性语义增强的图像特征和所述属性语义增强的文本特征进行跨模态对齐,以获取对应的属性层表示;
[0016]所述语义相似度单元,用于基于所述图像模态数据的关系语义增强的图像特征及其对应的对齐后的关系层表示、属性语义增强的图像特征及其对应的对齐后的属性层表示,获取对应的图像模态数据和文本模态数据之间的整体语义相似度,或基于所述文本模态数据的关系语义增强的文本特征及其对应的对齐后的关系层表示、属性语义增强的文本特征及其对应的对齐后的文本层表示,获取对应的图像模态数据和文本模态数据之间的整体语义相似度。
[0017]优选地,所述图像特征提取子单元对图像模态数据进行特征提取,以获取所述图像模态数据的图像区域特征、图像关系语义和图像属性语义,过程包括:
[0018]通过目标检测器提取所述图像模态数据中的区域目标特征和区域位置特征,并将所述区域目标特征通过全连接层映射为所述图像模态数据的图像区域特征;
[0019]基于所述区域位置特征建立所述区域目标特征中所有图像区域之间的相对位置关系,并将所述相对位置关系通过全连接层和激活函数映射为所述图像模态数据的隐式关系语义;
[0020]通过场景图模型将所述图像模态数据解析为图结构,所述图结构包括边特征和节点特征,所述图结构的节点特征即为所述图像模态数据的图像区域特征,所述图结构的边特征通过词编码矩阵映射为边关系向量,所述边关系向量即为所述图像模态数据的显式关系语义;
[0021]通过属性检测器预测所述图像模态数据的图像类别和图像属性,并将所述图像类别和所述图像属性通过词编码矩阵分别映射为类别向量和属性向量,将所述类别向量和所
述属性向量进行拼接以获取拼接向量,并将所述拼接向量通过所述全连接层映射为图像属性语义。
[0022]优选地,所述图像语义增强子单元将所述图像关系语义集成到所述图像区域特征上,以获取所述图像模态数据的关系语义增强的图像特征,并将所述图像属性语义集成到所述图像区域特征上,以获取所述图像模态数据的属性语义增强的图像特征,过程包括:
[0023]基于所述图像模态数据的隐式关系语义和所述区域目标特征,通过预设工具获取隐式关系语义增强的图像特征;
[0024]基于所述图像模态数据的显式关系语义和所述图结构的节点特征,通过预设工具获取显示关系语义增强的图像特征;
[0025]基于所述隐式关系语义增强的图像特征和所述显示关系语义增强的图像特征,通过预设工具获取整体关系语义增强的图像特征;
[0026]基于所述图像属性语义,通过预设工具获取属性语义增强的图像特征;
[0027]其中,所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义增强的跨模态检索方法,包括:构建跨模态检索模型,并基于图文检索数据训练集对所述跨模态检索模型进行训练以获取训练后的跨模态检索模型;确定目标查询数据和目标检索数据库中的目标模态数据集,基于所述训练后的跨模态检索模型获取所述目标查询数据与所述目标模态数据集中每个目标模态数据之间的整体语义相似度;在所述目标模态数据集中依据所述整体语义相似度从大到小的顺序选取预设个数的所述整体语义相似度对应的所述目标模态数据,并将预设个数的目标模态数据按对应所述整体语义相似度从大到小的顺序作为检索结果;其中,所述图文检索数据训练集包括多个图像模态数据和多个文本模态数据,所述目标查询数据的模态与所述目标模态数据集中目标模态数据的模态不同;所述跨模态检索模型包括特征提取单元、语义增强单元、细粒度跨模态对齐单元和语义相似度单元,所述特征提取单元包括图像特征提取子单元和文本特征提取子单元,所述语义增强单元包括图像语义增强子单元和文本语义增强子单元;所述图像特征提取子单元,用于对图像模态数据进行特征提取,以获取所述图像模态数据的图像区域特征、图像关系语义和图像属性语义;所述文本特征提取子单元,用于对文本模态数据进行特征提取,以获取所述文本模态数据的文本单词特征、文本关系语义和文本属性语义;所述图像语义增强子单元,用于将所述图像关系语义集成到所述图像区域特征上,以获取所述图像模态数据的关系语义增强的图像特征,并将所述图像属性语义集成到所述图像区域特征上,以获取所述图像模态数据的属性语义增强的图像特征;所述文本语义增强子单元,用于将所述文本关系语义集成到所述文本单词特征上,以获取所述文本模态数据的关系语义增强的文本特征,并将所述文本属性语义集成到所述文本单词特征上,以获取所述文本模态数据的属性语义增强的文本特征;所述细粒度跨模态对齐单元,用于将所述关系语义增强的图像特征和所述关系语义增强的文本特征进行跨模态对齐,以获取对应的关系层表示,并将所述属性语义增强的图像特征和所述属性语义增强的文本特征进行跨模态对齐,以获取对应的属性层表示;所述语义相似度单元,用于基于所述图像模态数据的关系语义增强的图像特征及其对应的对齐后的关系层表示、属性语义增强的图像特征及其对应的对齐后的属性层表示,获取对应的图像模态数据和文本模态数据之间的整体语义相似度,或基于所述文本模态数据的关系语义增强的文本特征及其对应的对齐后的关系层表示、属性语义增强的文本特征及其对应的对齐后的文本层表示,获取对应的图像模态数据和文本模态数据之间的整体语义相似度。2.根据权利要求1所述的检索方法,其特征在于,所述图像特征提取子单元对图像模态数据进行特征提取,以获取所述图像模态数据的图像区域特征、图像关系语义和图像属性语义过程包括:通过目标检测器提取所述图像模态数据中的区域目标特征和区域位置特征,并将所述区域目标特征通过全连接层映射为所述图像模态数据的图像区域特征;基于所述区域位置特征建立所述区域目标特征中所有图像区域之间的相对位置关系,
并将所述相对位置关系通过全连接层和激活函数映射为所述图像模态数据的隐式关系语义;通过场景图模型将所述图像模态数据解析为图结构,所述图结构包括边特征和节点特征,所述图结构的边特征通过词编码矩阵映射为边关系向量,所述边关系向量即为所述图像模态数据的显式关系语义;通过属性检测器预测所述图像模态数据的图像类别和图像属性,并将所述图像类别和所述图像属性通过词编码矩阵分别映射为类别向量和属性向量,将所述类别向量和所述属性向量进行拼接以获取拼接向量,并将所述拼接向量通过所述全连接层映射为图像属性语义。3.根据权利要求1所述的检索方法,其特征在于,所述图像语义增强子单元将所述图像关系语义集成到所述图像区域特征上,以获取所述图像模态数据的关系语义增强的图像特征,并将所述图像属性语义集成到所述图像区域特征上,以获取所述图像模态数据的属性语义增强的图像特征过程包括:基于所述图像模态数据的隐式关系语义和所述区域目标特征,通过预设工具获取隐式关系语义增强的图像特征;基于所述图像模态数据的显式关系语义和所述图结构的节点特征,通过预设工具获取显示关系语义增强的图像特征;基于所述隐式关系语义增强的图像特征和所述显示关系语义增强的图像特征,通过预设工具获取整体关系语义增强的图像特征;基于所述图像属性语义,通过预设工具获取属性语义增强的图像特征;其中,所述预设工具为Transformer。4.根据权利要求1所述的检索方法,其特征在于,所述文本特征提取子单元对文本模态数据进行特征提取,以获取所述文本模态数据的文本单词特征、文本关系语义和文本属性语义过程包括:将所述文本模态数据通过词编码矩阵映射为文本向量表示,并通过循环神经网络将所述文本向量表示映射为具有上下文信息的文本单词特征;通过句法解析工具对所述文本模态数据进行关系抽取,以获取所述文本模态数据的所有关系三元组,将所有所述关系三元组中代表关系的单词通过词编码矩阵映射为文本关系语义;通过句法解析工具对所述文本模态数据进行属性抽取,以获取所述文本模态数据的所有属性二元组,并基于所有所述二元组获取所述文本模态数据的文本属性语义。5.根据权利要求1所述的检索方法,其特征在于,所述文本语义增强子单元将所述文本关系语义集成到所述文本单词特征上,以获取所述文本模态数据关系语义增强的文本特征,并将所述文本属性语义集成到所述文本单词特征上,以获取所述文本模态数据属性语义增强的文本特征过程包括:基于所述文本单词特征和所述文本关系语义,通过图注意力网络获取关系语义增强的文本特征;基于所述文本单词特征和所述文本属性语义,通过图注意力网络获取属性语义增强的文本特征。
6.根据权利要求1所述的检索方法,其特征在于,所述细粒度跨模态对齐单元将所述关系语义增强的图像特征和所述关系语义增强的文本特征进行跨模态对齐,以获取对应的关系层表示,并将所述属性语义增强的图像特征和所述属性语义增强...

【专利技术属性】
技术研发人员:黄俊潘浩魏鑫燏朱智聪
申请(专利权)人:中国科学院上海高等研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1