基于跨尺度对齐的图文互检索方法、系统、设备及介质技术方案

技术编号:44551226 阅读:39 留言:0更新日期:2025-03-11 14:14
本发明专利技术提供了一种基于跨尺度对齐的图文互检索方法、系统、设备及介质,包括:获取待检索信息以及检索目标数据库;对待检索信息以及检索目标数据库中的检索目标进行标记化处理,获得标记序列;对标记序列中的标记进行编码处理,获得待检索信息以及检索目标的特征嵌入表示;基于待检索信息和检索目标对应的标记序列,分别基于各自标记之间的位置关系和共现关系进行语义聚合,获得标记序列的第一子序列集合和第二子序列集合,并基于两个集合的融合结果,获得待检索信息的语义聚合结果和检索目标的语义聚合结果;基于待检索信息的语义聚合结果,计算其与检索目标数据库中检索目标的语义聚合结果的相似度,基于相似度结果获得图像或文本检索结果。

【技术实现步骤摘要】

本专利技术属于图文检索,尤其涉及一种基于跨尺度对齐的图文互检索方法、系统、设备及介质


技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。

2、图文检索(itr)旨在通过给定的文本查询搜索相关的图像,或通过给定的图像查询检索相关的文本。通过实现跨模态的关联学习与推理,itr已成为视觉-语言应用中不可或缺的组成部分,包括视觉问答、视频片段检索以及时尚图像检索。

3、根据语义关联的建立策略,现有的图文检索(itr)方法可以分为两大类:

4、1)建立全局层面的语义关联,即通过直接交互两个模态的全局表示,学习图像与文本之间的全局对应关系。

5、2)建立局部层面的语义关联,即通过捕捉图像的局部视觉部分与文本的局部文本部分之间的细粒度线索,学习图像与文本的局部对应关系。

6、但是,专利技术人发现,建立全局层面的语义关联方式,缺少对于两个模态数据细节信息的考虑,导致检索全面性和准确性具有一定缺陷;而对于建立局部层面的语义关联的方式,虽然建立词语与图像区域之间的局部语义关联本文档来自技高网...

【技术保护点】

1.一种基于跨尺度对齐的图文互检索方法,其特征在于,包括:

2.如权利要求1所述的一种基于跨尺度对齐的图文互检索方法,其特征在于,在待检索信息与检索目标的相似度计算中,根据尺度平衡对齐和尺度不平衡对齐分别计算待检索信息与检索目标的相似性,基于相似性计算结果,进行待检索信息与检索目标语义聚合结果之间的弱语义关联的滤除,获得中间相似度矩阵;基于所述中间相似度矩阵,将待检索信息和检索目标的语义聚合结果在不同尺度上对齐,基于对齐结果进行相似度计算,获得相似度结果。

3.如权利要求1所述的一种基于跨尺度对齐的图文互检索方法,其特征在于,所述基于所述中间相似度矩阵,将待检索信...

【技术特征摘要】

1.一种基于跨尺度对齐的图文互检索方法,其特征在于,包括:

2.如权利要求1所述的一种基于跨尺度对齐的图文互检索方法,其特征在于,在待检索信息与检索目标的相似度计算中,根据尺度平衡对齐和尺度不平衡对齐分别计算待检索信息与检索目标的相似性,基于相似性计算结果,进行待检索信息与检索目标语义聚合结果之间的弱语义关联的滤除,获得中间相似度矩阵;基于所述中间相似度矩阵,将待检索信息和检索目标的语义聚合结果在不同尺度上对齐,基于对齐结果进行相似度计算,获得相似度结果。

3.如权利要求1所述的一种基于跨尺度对齐的图文互检索方法,其特征在于,所述基于所述中间相似度矩阵,将待检索信息和检索目标的语义聚合结果在不同尺度上对齐,基于对齐结果进行相似度计算,获得相似度结果,具体为:基于待检索信息和检索目标的语义聚合结果的特征表示,结合所述中间相似度矩阵,通过注意力机制作为词嵌入,通过加权组合,获得待检索信息的上下文特征向量和检索目标的上下文特征向量;基于待检索信息和检索目标的语义聚合结果的特征表示,结合所述上下文特征向量,分别进行待检索信息到检索目标方向上和检索目标到待检索信息方向上的相似度计算,获得第一相似度和第二相似度,基于所述第一相似度和第二相似度的融合,获得相似度结果。

4.如权利要求1所述的一种基于跨尺度对齐的图文互检索方法,其特征在于,所述对待检索信息以及检索目标数据库中的检索目标进行标记化处理,具体为:对于图像,将划分的图像区域按照区域质心坐标进行排序,形成视觉标记序列;对于文本,将分词后的每个单词按照先后顺序进行排序,形成文本标记序列。

【专利技术属性】
技术研发人员:刘峥徐君豪高珊珊杨文栋
申请(专利权)人:山东财经大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1