【技术实现步骤摘要】
本申请涉及图像处理,特别是涉及一种多模态目标检索方法、设备及存储介质。
技术介绍
1、目标检索旨在从图像中查询出相应目标对象的图像,目标检索可以分为基于图像的目标检索和基于文本的目标检索,在实际应用中,由于用于检索的目标模板图像通常无法提前得知,而文字描述提供了一种相对全面的方式来描述一个目标的属性信息,因此基于文本描述的目标检索更为灵活和通用,有着广泛的应用场景。
2、当前基于文本的跨模态目标检索方法,大多是通过外接目标检测器,先检测目标位置,再提取目标位置的图像特征和文本信息特征,或是直接提取图像特征和文本信息特征,以根据提取的图像特征和文本特征实现目标检索,但这类方法无法有效挖掘图像和文本的细粒度属性信息,且模型冗余,极大增加计算量,导致基于文本的目标检索方法鲁棒性、准确性、实用性较差。
技术实现思路
1、为了解决上述技术问题,本申请至少提供一种多模态目标检索方法、设备及存储介质。
2、本申请第一方面提供了一种多模态目标检索方法,方法包括:获取待检索图像和提示
...【技术保护点】
1.一种多模态目标检索方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在所述基于所述图文注意力参数对所述候选目标区域进行区域图像编码,得到所述候选目标区域对应的区域视觉特征之前,还包括:
3.根据权利要求1所述的方法,其特征在于,所述获取所述候选目标区域对应的图像特征,得到初始区域特征,包括:
4.根据权利要求3所述的方法,其特征在于,所述对所述多个尺度的区域特征进行融合,得到所述候选目标区域对应的初始区域特征,包括:
5.根据权利要求1所述的方法,其特征在于,所述计算所述文本特征与所述区域视觉特征之
...【技术特征摘要】
1.一种多模态目标检索方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在所述基于所述图文注意力参数对所述候选目标区域进行区域图像编码,得到所述候选目标区域对应的区域视觉特征之前,还包括:
3.根据权利要求1所述的方法,其特征在于,所述获取所述候选目标区域对应的图像特征,得到初始区域特征,包括:
4.根据权利要求3所述的方法,其特征在于,所述对所述多个尺度的区域特征进行融合,得到所述候选目标区域对应的初始区域特征,包括:
5.根据权利要求1所述的方法,其特征在于,所述计算所述文本特征与所述区域视觉特征之间的匹配度,包括:
6.根据权利要求5所述的方法,其特征在于,所述对所述文本特征和所述区域视觉特征进行特征融合...
【专利技术属性】
技术研发人员:李德财,张海涛,马子昂,
申请(专利权)人:杭州华橙软件技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。