应用于图文检索的图像文本语义匹配方法及系统技术方案

技术编号:41564540 阅读:19 留言:0更新日期:2024-06-06 23:47
本发明专利技术属于图文检索领域,提供了一种应用于图文检索的图像文本语义匹配方法及系统,包括获取图像文本对进行特征提取,得到文本区域特征和视觉区域特征;分别构建文本语义关系图和图像语义关系图,并利用多头注意力机制得到增强文本特征和增强视觉特征,将其分别与文本区域特征和视觉区域特征进行聚合,得到全局视觉嵌入和全局文本嵌入;基于文本区域特征和视觉区域特征嵌入分别获取模态间和模态内的连接关系和关联关系,从而得到连接矩阵和关联矩阵;基于全局视觉嵌入和全局文本嵌入以及关联矩阵和连接矩阵,通过视觉‑文本注意力进行对齐,得到增强的视觉嵌入和增强的文本嵌入;根据增强的视觉嵌入和增强的文本嵌入进行图文匹配。

【技术实现步骤摘要】

本专利技术属于图文检索,具体涉及一种应用于图文检索的图像文本语义匹配方法及系统


技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。

2、传统的图像-文本匹配模型在进行特征提取时,往往依赖于手工设计的特征(如sift、hog等),这些特征可能无法充分捕获图像的复杂性和文本的语义深度。这限制了系统在理解和匹配图像与文本时的能力。使用传统方法有如下三个缺点:

3、1.有限的特征表示:特征提取不充分导致无法充分理解图像中表达的意思或文本中的复杂叙述。

4、2.缺乏上下文理解:在处理文本时,传统方法无法有效地理解上下文信息,这对于准确匹配文本和图像非常重要。

5、3.语义对齐困难:最大的挑战之一是准确地对齐图像和文本中的语义内容。由于图像和文本具有本质上的模态差异,使用传统方法很难精确地匹配图像中的视觉内容和文本中的描述性语言。

6、除此之外,传统的传统方法依赖于手工设计的特征,如尺度不变特征变换(sift)或方向梯度直方图(hog)用于图像,以及词袋模型或tf-i本文档来自技高网...

【技术保护点】

1.应用于图文检索的图像文本语义匹配方法,其特征在于,包括:

2.如权利要求1所述的应用于图文检索的图像文本语义匹配方法,其特征在于,所述获取图像文本对进行特征提取,得到文本区域特征和视觉区域特征,具体为:

3.如权利要求1所述的应用于图文检索的图像文本语义匹配方法,其特征在于,所述分别构建文本语义关系图和图像语义关系图,具体为:

4.如权利要求1所述的应用于图文检索的图像文本语义匹配方法,其特征在于,所述利用多头注意力机制分别捕获文本和图像的语义关系得到增强文本特征和增强视觉特征,具体为:

5.如权利要求1所述的应用于图文检索的图像文本语...

【技术特征摘要】

1.应用于图文检索的图像文本语义匹配方法,其特征在于,包括:

2.如权利要求1所述的应用于图文检索的图像文本语义匹配方法,其特征在于,所述获取图像文本对进行特征提取,得到文本区域特征和视觉区域特征,具体为:

3.如权利要求1所述的应用于图文检索的图像文本语义匹配方法,其特征在于,所述分别构建文本语义关系图和图像语义关系图,具体为:

4.如权利要求1所述的应用于图文检索的图像文本语义匹配方法,其特征在于,所述利用多头注意力机制分别捕获文本和图像的语义关系得到增强文本特征和增强视觉特征,具体为:

5.如权利要求1所述的应用于图文检索的图像文本语义匹配方法,其特征在于,所述基于文本区域特征和视觉区域特征获取模态间的连接关系和关联关系,得到模态间连接矩阵和模态间关联矩阵,具体为:

6.如权利要求1所述的应用于图文检索的图像文本语义匹配方法,其特征在于,所述基于文本区域...

【专利技术属性】
技术研发人员:鲁芹张雨
申请(专利权)人:齐鲁工业大学山东省科学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1