【技术实现步骤摘要】
本公开涉及图文检索,具体涉及基于语义关系和交叉注意力机制的图文检索方法及系统。
技术介绍
1、本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。
2、图文检索技术(visualand textualretrieval)是指通过结合图像和文本信息,实现对多媒体内容的检索和搜索。随着计算机视觉和自然语言处理的快速发展,图文检索技术逐渐成为一个备受关注的研究领域。它不仅在许多应用中发挥着重要作用,而且在未来的发展中拥有广阔的前景。
3、目前,针对图文检索的方法有:1)基于全局匹配方法,对整个图像和文本各自提取特征,然后将图像和文本独立的嵌入到共同的嵌入空间,通过特征距离可以测量它们之间的相似性。受深度学习成功的驱动,可以针对不同的模态使用不同的网络进行特征学习,对图像可以用卷积神经网络,对文本可以用循环神经网络,之后将两个模型映射到公共空间进行比较。2)基于局部匹配的方法,通常提取出图像或文本中显著的片段,例如针对图像可以用比较成熟的目标检测方法,用预训练的faster-rcnn提取出显著区域,然
...【技术保护点】
1.基于语义关系和交叉注意力机制的图文检索方法,其特征在于,包括:
2.如权利要求1所述的基于语义关系和交叉注意力机制的图文检索方法,其特征在于,采用Faster RCNN提取图像中的显著区域,提取出一组显著的图像区域,其特征表示为O={o1,o2,...,ok},其中每个oi是第i个区域的平均池化特征,k表示图像区域的个数,再经过一个全连接层将特征维度进行转换,得到一组区域语义特征表示。
3.如权利要求1所述的基于语义关系和交叉注意力机制的图文检索方法,其特征在于,建立各图像区域之间的连接,生成关系图模型,包括:通过考虑图像区域之间的语义相关
...【技术特征摘要】
1.基于语义关系和交叉注意力机制的图文检索方法,其特征在于,包括:
2.如权利要求1所述的基于语义关系和交叉注意力机制的图文检索方法,其特征在于,采用faster rcnn提取图像中的显著区域,提取出一组显著的图像区域,其特征表示为o={o1,o2,...,ok},其中每个oi是第i个区域的平均池化特征,k表示图像区域的个数,再经过一个全连接层将特征维度进行转换,得到一组区域语义特征表示。
3.如权利要求1所述的基于语义关系和交叉注意力机制的图文检索方法,其特征在于,建立各图像区域之间的连接,生成关系图模型,包括:通过考虑图像区域之间的语义相关性来增强图像区域的表示,建立关系图模型,图的节点是图像的各个显著区域,如果两个图像区域间存在着强的语义关联,那么将会有一条高权重的边连接这两个区域,以此形成一个全连通的图。
4.如权利要求3所述的基于语义关系和交叉注意力机制的图文检索方法,其特征在于,所述全连通图利用图卷积网络进行推理,每个节点的更新是根据图像该节点的邻居得到,之后添加残差连接,得到关系增强后的一组新的特征,对这组新的特征执行自注意力机制,使用平均特征作为指导,聚合所有区域特征以获得全局表示,最后应用归一化得到图像全局特征。
5.如权利要求1所述的基于语义关系和交叉注意力机制的图文检索方法,其特征在于,针对文本数据,首先进行分词,每个单词用one-hot进行编码,再经过嵌入矩阵进行词嵌入,使用bert模型来提取单词的特征,经过多个自注意...
【专利技术属性】
技术研发人员:耿玉水,周焕晓,赵晶,马熙杉,
申请(专利权)人:齐鲁工业大学山东省科学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。