基于语义关系和交叉注意力机制的图文检索方法及系统技术方案

技术编号:40701037 阅读:28 留言:0更新日期:2024-03-22 10:59
本公开提供了基于语义关系和交叉注意力机制的图文检索方法及系统,涉及图文检索技术领域,同时考虑到模态内和模态间关系,针对模态内部挖掘图像区域之间和文本单词之间可能存在的关联,充分捕捉模态内存在的上下文关系后,一方面各自通过自注意力机制,得到图像全局特征和文本全局特征,另一方面,通过一个双向交叉注意机制对图像区域和文本单词的模态间关系进行挖掘,每个区域特征被用作查询来为单词特征分配权重,然后对所有单词进行加权求和来获得新的单词表示,同样,可以将每个单词特征用作查询来获得新的图像区域表示,最后通过设定的目标函数优化模型中的参数。本公开能够获得丰富的模态间的特征。

【技术实现步骤摘要】

本公开涉及图文检索,具体涉及基于语义关系和交叉注意力机制的图文检索方法及系统


技术介绍

1、本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。

2、图文检索技术(visualand textualretrieval)是指通过结合图像和文本信息,实现对多媒体内容的检索和搜索。随着计算机视觉和自然语言处理的快速发展,图文检索技术逐渐成为一个备受关注的研究领域。它不仅在许多应用中发挥着重要作用,而且在未来的发展中拥有广阔的前景。

3、目前,针对图文检索的方法有:1)基于全局匹配方法,对整个图像和文本各自提取特征,然后将图像和文本独立的嵌入到共同的嵌入空间,通过特征距离可以测量它们之间的相似性。受深度学习成功的驱动,可以针对不同的模态使用不同的网络进行特征学习,对图像可以用卷积神经网络,对文本可以用循环神经网络,之后将两个模型映射到公共空间进行比较。2)基于局部匹配的方法,通常提取出图像或文本中显著的片段,例如针对图像可以用比较成熟的目标检测方法,用预训练的faster-rcnn提取出显著区域,然后使用resnet1本文档来自技高网...

【技术保护点】

1.基于语义关系和交叉注意力机制的图文检索方法,其特征在于,包括:

2.如权利要求1所述的基于语义关系和交叉注意力机制的图文检索方法,其特征在于,采用Faster RCNN提取图像中的显著区域,提取出一组显著的图像区域,其特征表示为O={o1,o2,...,ok},其中每个oi是第i个区域的平均池化特征,k表示图像区域的个数,再经过一个全连接层将特征维度进行转换,得到一组区域语义特征表示。

3.如权利要求1所述的基于语义关系和交叉注意力机制的图文检索方法,其特征在于,建立各图像区域之间的连接,生成关系图模型,包括:通过考虑图像区域之间的语义相关性来增强图像区域的表...

【技术特征摘要】

1.基于语义关系和交叉注意力机制的图文检索方法,其特征在于,包括:

2.如权利要求1所述的基于语义关系和交叉注意力机制的图文检索方法,其特征在于,采用faster rcnn提取图像中的显著区域,提取出一组显著的图像区域,其特征表示为o={o1,o2,...,ok},其中每个oi是第i个区域的平均池化特征,k表示图像区域的个数,再经过一个全连接层将特征维度进行转换,得到一组区域语义特征表示。

3.如权利要求1所述的基于语义关系和交叉注意力机制的图文检索方法,其特征在于,建立各图像区域之间的连接,生成关系图模型,包括:通过考虑图像区域之间的语义相关性来增强图像区域的表示,建立关系图模型,图的节点是图像的各个显著区域,如果两个图像区域间存在着强的语义关联,那么将会有一条高权重的边连接这两个区域,以此形成一个全连通的图。

4.如权利要求3所述的基于语义关系和交叉注意力机制的图文检索方法,其特征在于,所述全连通图利用图卷积网络进行推理,每个节点的更新是根据图像该节点的邻居得到,之后添加残差连接,得到关系增强后的一组新的特征,对这组新的特征执行自注意力机制,使用平均特征作为指导,聚合所有区域特征以获得全局表示,最后应用归一化得到图像全局特征。

5.如权利要求1所述的基于语义关系和交叉注意力机制的图文检索方法,其特征在于,针对文本数据,首先进行分词,每个单词用one-hot进行编码,再经过嵌入矩阵进行词嵌入,使用bert模型来提取单词的特征,经过多个自注意...

【专利技术属性】
技术研发人员:耿玉水周焕晓赵晶马熙杉
申请(专利权)人:齐鲁工业大学山东省科学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1