多模态目标检索方法、设备及存储介质技术

技术编号:42650273 阅读:36 留言:0更新日期:2024-09-06 01:43
本申请公开了一种多模态目标检索方法、设备及存储介质,该多模态目标检索方法包括:对待检索图像进行图像编码得到待检索图像特征,并对提示文本进行文本编码得到文本特征;基于待检索图像特征识别得到候选目标的候选目标区域,获取候选目标区域对应的初始区域特征;利用交叉注意力机制计算文本特征与初始区域特征之间的注意力,得到图文注意力参数;基于图文注意力参数对候选目标区域进行区域图像编码,得到区域视觉特征;计算文本特征与区域视觉特征之间的匹配度,筛选匹配度满足预设条件的区域视觉特征对应的候选目标,得到目标检索结果。使用提示文本信息驱动区域视觉特征的提取,优化区域特征提取能力,提高了目标检索的精度。

【技术实现步骤摘要】

本申请涉及图像处理,特别是涉及一种多模态目标检索方法、设备及存储介质


技术介绍

1、目标检索旨在从图像中查询出相应目标对象的图像,目标检索可以分为基于图像的目标检索和基于文本的目标检索,在实际应用中,由于用于检索的目标模板图像通常无法提前得知,而文字描述提供了一种相对全面的方式来描述一个目标的属性信息,因此基于文本描述的目标检索更为灵活和通用,有着广泛的应用场景。

2、当前基于文本的跨模态目标检索方法,大多是通过外接目标检测器,先检测目标位置,再提取目标位置的图像特征和文本信息特征,或是直接提取图像特征和文本信息特征,以根据提取的图像特征和文本特征实现目标检索,但这类方法无法有效挖掘图像和文本的细粒度属性信息,且模型冗余,极大增加计算量,导致基于文本的目标检索方法鲁棒性、准确性、实用性较差。


技术实现思路

1、为了解决上述技术问题,本申请至少提供一种多模态目标检索方法、设备及存储介质。

2、本申请第一方面提供了一种多模态目标检索方法,方法包括:获取待检索图像和提示文本,对待检索图像进本文档来自技高网...

【技术保护点】

1.一种多模态目标检索方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在所述基于所述图文注意力参数对所述候选目标区域进行区域图像编码,得到所述候选目标区域对应的区域视觉特征之前,还包括:

3.根据权利要求1所述的方法,其特征在于,所述获取所述候选目标区域对应的图像特征,得到初始区域特征,包括:

4.根据权利要求3所述的方法,其特征在于,所述对所述多个尺度的区域特征进行融合,得到所述候选目标区域对应的初始区域特征,包括:

5.根据权利要求1所述的方法,其特征在于,所述计算所述文本特征与所述区域视觉特征之间的匹配度,包括:<...

【技术特征摘要】

1.一种多模态目标检索方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在所述基于所述图文注意力参数对所述候选目标区域进行区域图像编码,得到所述候选目标区域对应的区域视觉特征之前,还包括:

3.根据权利要求1所述的方法,其特征在于,所述获取所述候选目标区域对应的图像特征,得到初始区域特征,包括:

4.根据权利要求3所述的方法,其特征在于,所述对所述多个尺度的区域特征进行融合,得到所述候选目标区域对应的初始区域特征,包括:

5.根据权利要求1所述的方法,其特征在于,所述计算所述文本特征与所述区域视觉特征之间的匹配度,包括:

6.根据权利要求5所述的方法,其特征在于,所述对所述文本特征和所述区域视觉特征进行特征融合...

【专利技术属性】
技术研发人员:李德财张海涛马子昂
申请(专利权)人:杭州华橙软件技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1