一种基于CNN和Transformer的素描图像-可见光图像的检索方法技术

技术编号:37144414 阅读:28 留言:0更新日期:2023-04-06 21:54
本发明专利技术公开了一种基于CNN和Transformer的素描图像

【技术实现步骤摘要】
一种基于CNN和Transformer的素描图像

可见光图像的检索方法


[0001]本专利技术涉及计算机视觉中的图像检索领域,具体属于基于CNN和Transformer相结合用于素描图像

可见光图像的跨模态图像的检索方法。

技术介绍

[0002]随着移动设备的普及和触屏技术的发展,用素描图像作为查询图像来检索可见光图像的方式是一种简单有效的方法。人们可以用绘制素描图像的简单方式来表达自己想要的东西。这种新颖的检索方式吸引了广泛的研究兴趣。对于图像检索来说,使用素描图像来表示视觉线索和查询比仅使用文本查询更加方便。因此,基于素描图像

可见光图像的检索在计算机视觉的实际应用中具有很大的潜力,用户可以使用手绘素描图像在大规模图像数据库中检索相关的自然彩色图像。
[0003]素描图像

可见光图像检索主要是解决的问题是根据输入素描图像查找最相似的可见光图像。它面临三个挑战:首先,素描图像和可见光图像之间存在很大的模态差异,这是因为素描图像是由抽象的线条组成的,而可见光本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于CNN和Transformer的素描图像

可见光图像的检索方法,其特征在于,所述方法包括:步骤1:获取素描图像

可见光图像数据集,将其划分为训练集和测试集;步骤2:利用基于CNN的多粒度特征提取网络、基于跨模态注意力的共有特征增强网络、基于Transformer多粒度交互网络构建跨模态检索模型;步骤3:把步骤1划分好的训练集图像数据进行预处理,预处理好的素描图像

可见光图像训练集输入到跨模态检索模型中,对步骤2所述的跨模态检索模型进行训练;步骤4:对训练过程的训练损失进行反向传播,并通过优化器对构建好的跨模态检索模型进行优化,最终达到训练损失收敛;步骤5:将步骤1划分好的测试集图像数据进行预处理,预处理好的素描图像

可见光图像测试集输入到步骤4训练好的跨模态检索模型中,进行素描图像

可见光图像的跨模态检索;步骤6:利用累计匹配曲线CMC和平均准确度mAP两个客观评价指标对模型性能进行评价。2.根据权利要求1所述的一种基于CNN和Transformer的素描图像

可见光图像的检索方法,其特征在于,所述步骤1中,所述素描图像

可见光图像数据集包括素描图像数据集和可见光图像数据集;两个数据集都需要划分成测试集和训练集,其中训练集和测试集的身份标签完成不重叠。3.根据权利要求1所述的一种基于CNN和Transformer的素描图像

可见光图像的检索方法,其特征在于,所述步骤2中,所述基于CNN的多粒度特征提取网络由5层双分支并行的残差卷积ResNet50网络组成,前3层是并行的模态不共享层,用来分别提取素描图像,可见光图像的模态特有特征;后面2层是并行的双分支网络,一个支路用来提取两个模态共有的全局特征,另一个支路用来提取两个模态的共有的局部特征,所以后面两层是模态间共享网络参数,全局和局部网络不共享网络参数。4.根据权利要求1所述的一种基于CNN和Transformer的素描图像

可见光图像的检索方法,其特征在于,所述步骤2中,所述基于跨模态注意力的共有特征增强网络包括用于实现如下功能:将得到的多粒度特征进行跨模态共有特征的增强;其中跨模态共有特征的增强分为两个支路,第一个支路为素描图像到可见光图像的跨模态注意力增强,通过计算跨模态注意力,让网络在提取素描图像特征过程中不仅注意到素描图像特征的最显著部分,同时在素描图像特征中增强的区域是两个模态的共有特征;第二个支路为可见光图像到素描图像的跨模态注意力增强,通过计算跨模态注意力,让网络在提取可见光图像特征过程中不仅注意到可见光图像特征的最显著部分,同时在可见光图像特征中增强的区域是两个模态的共有特征;跨模态注意力计算公式如下:有特征;跨模态注意力计算公式如下:
其中,表示六个不同的线性映射层的权重矩阵;D表示注意力缩放系数;F
ls
、F
lp
分别表示素描图像局部特征,可见光图像局部特征。5.根据权利要求1所述的一种基于CNN和Transformer的素描图像

可见光图像的检索方法,其...

【专利技术属性】
技术研发人员:张亚飞王永增李华锋
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1