基于空间和通道双维度注意的多模态图像特征匹配方法组成比例

技术编号:38509175 阅读:8 留言:0更新日期:2023-08-19 16:54
本发明专利技术公开了一种基于空间和通道双维度注意的多模态图像特征匹配方法,所述方法设计了一种包含空间和通道双维度注意力的注意机制,可以同时对空间和通道双维度进行特征提取,来提高模型在通道间的信息交互能力,以帮助模型将匹配定位在更加重要的特征上,以此提高匹配效率。基于空间和通道双维度注意的方式,该模型不仅解决了多模态图像下的特征匹配问题,且具有出色的匹配能力和匹配准确度,在多种不同模态的数据集下都有着良好的匹配结果和非常好的泛化性,具有很高的实际应用价值。此外,在使用本模型进行多模态图像下的特征匹配时,只需将待匹配数据集输入训练好的、基于空间和通道双维度的匹配网络中,即可全自动的进行特征匹配。动的进行特征匹配。动的进行特征匹配。

【技术实现步骤摘要】
基于空间和通道双维度注意的多模态图像特征匹配方法


[0001]本专利技术涉及图像处理
,尤其涉及到一种基于空间和通道双维度注意的多模态图像特征匹配方法。

技术介绍

[0002]多模态图像数据间的特征匹配技术在很多方面都有广泛的应用场景,包括视觉定位、运动结构(SfM)、全球测绘等。以往的主流研究是基于检测器的两阶段局部特征匹配方法,常见步骤包括:特征检测、描述符提取和特征匹配。然而,基于检测器的方法依赖于特征点检测器的结果,这在一定程度上导致了有效性的缺失,导致模型匹配效率不高。随着Transformer在自然语言处理领域的优秀表现,也有越来越多的研究集中在将Transformer应用在计算机视觉领域。ViT得益于其出色的全局建模能力,被广泛应用在各种图像处理任务中。
[0003]虽然ViT可以帮助模型在空间上进行长程信息交互,但是它缺乏了通道间信息的交互,导致其缺乏定位通道上重要特征的能力,这对于多模态图像下的特征匹配是不利的。其次,大量的研究表明,通道间信息交互对于特征提取也有很大的裨益。因此,构建一个能够同时在空间和通道双维度进行信息交互、性能优异、效率高模型是迫切所需。

技术实现思路

[0004]本专利技术的主要目的在于提供一种基于空间和通道双维度注意力的多模态图像特征匹配方法,对空间注意的Transformer进行了扩展,增强模型在通道间的信息交互,提高模型定位重要特征的能力,以解决多模态图像特征匹配问题。
[0005]为实现上述目的,本专利技术提供基于空间和通道双维度注意的多模态图像特征匹配方法,所述方法,包括以下步骤:
[0006]S1:使用改进的FPN架构对图像的特征进行初步提取;
[0007]S2:使用空间注意力在空间维度进行特征交互;
[0008]S3:使用位置编码巩固图像位置信息;
[0009]S4:在图像的通道维度上进行注意力交互,完成最终的特征提取;
[0010]S5:使用双向softmax处理注意力交互后的特征,对模型进行训练,并实现多模态图像下的特征匹配。
[0011]可选的,所述改进的FPN架构,具体包括:4个BasicBlock,4个UpConv块,4个Connect块组成,4个用于降维的3
×
3卷积。
[0012]可选的,所述BasicBlock由两个3
×
3卷积,两个BatchNorm归一化函数,一个ReLU激活组成;所述UpConv块由一个双线性插值函数,一个3
×
3卷积,一个BatchNorm函数组成;所述Connect块,由一个Concat函数组成。
[0013]可选的,所述步骤S2中,使用空间注意力在空间维度进行特征交互步骤的表达式,具体为:
[0014]x
s
=Attention(x)
[0015][0016]Q=xW
Q
[0017]K=xW
K
[0018]V=xW
V
[0019]其中,矩阵W是根据输入生成向量Q,K,V的可学习矩阵,d是缩放因子,x
s
是经过空间信息交互的特征图,x为特征图。
[0020]可选的,所述步骤S3中,所述位置编码采用基于卷积的位置编码,由一个3
×
3卷积,一个GLEU()激活函数组成。
[0021]可选的,所述位置编码的表达式,具体为:
[0022]x
p
=GLEU(Conv3×3(x
s
)+x
s
[0023]可选的,所述步骤S4,具体包括:
[0024]基于x
p
和三个可学习矩阵W
c
,获得查询向量Q
c
,键向量K
c
,值向量V
c
;将K
c
进行转置;将键向量K
c
的转置和值向量V
c
相乘,将得到的结果进行softmax归一化操作,得到attention分数;
[0025]将Q
c
转置,将转置的结果同attention分数相乘,相乘的结果将会进行转置操作;经过projection层,得到经过通道信息交互的输出x
c

[0026]x
c
将经过一个LayerNorm,一个Mlp,一个Dropout,并和初始x
c
进行残差,得到最后的输出x
F

[0027]可选的,所述步骤S4的表达式,具体为:
[0028][0029][0030][0031][0032][0033]x
F
=Dropout(Mlp(LayerNorm(x
c
)))+x
c
[0034]其中,@表示矩阵乘法,attn表示attention分数,Proj是一个Linear层,输入和输出维度相同。
[0035]可选的,所述步骤S5中,使用双向softmax处理注意力交互后的特征的表达式,具体为:
[0036]P(i,j)=softmax(S(i,
·
))
j
·
softmax(S(
·
,j))
i
[0037]其中,softmax表示归一化操作,softmax(S(i,
·
))
j
表示对第i行的所有元素做softmax的运算,softmax(S(
·
,j))
i
表示对第j列的所有元素做softmax的运算,将两个结果相乘,得到最后的匹配概率矩阵P。
[0038]可选的,所述步骤S5中,对模型进行训练的表达式,具体为:
[0039][0040]其中,|M
conf
|表示匹配的样本总数,∑
k
(
·
)表示对k个样本求和,GT
i,j
表示标签,P(i,j)表示正确匹配的概率。
[0041]本专利技术的有益效果在于:提出了一种新的多模态图像特征匹配方法,设计了一种包含空间和通道双维度注意力的注意机制。改进后的模型可以同时对空间和通道双维度进行特征提取,来提高模型在通道间的信息交互能力,以帮助模型将匹配定位在更加重要的特征上,以此提高匹配效率。基于空间和通道双维度注意的方式,该模型不仅解决了多模态图像下的特征匹配问题,且具有出色的匹配能力和匹配准确度,在多种不同模态的数据集下都有着良好的匹配结果和非常好的泛化性,具有很高的实际应用价值。此外,在使用本模型进行多模态图像下的特征匹配时,只需将待匹配数据集输入训练好的、基于空间和通道双维度的匹配网络中,即可全自动的进行特征匹配。
附图说明
[0042]图1是本专利技术实施例的基于空间和通道双维度的多模态图像特征匹配方法的流程图;
[0043]图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于空间和通道双维度注意的多模态图像特征匹配方法,其特征在于,所述方法,包括以下步骤:S1:使用改进的FPN架构对图像的特征进行初步提取;S2:使用空间注意力在空间维度进行特征交互;S3:使用位置编码巩固图像位置信息;S4:在图像的通道维度上进行注意力交互,完成最终的特征提取;S5:使用双向softmax处理注意力交互后的特征,对模型进行训练,并实现多模态图像下的特征匹配。2.如权利要求1所述的基于空间和通道双维度注意的多模态图像特征匹配方法,其特征在于,所述改进的FPN架构,具体包括:4个BasicBlock,4个UpConv块,4个Connect块组成,4个用于降维的3
×
3卷积。3.如权利要求2所述的基于空间和通道双维度注意的多模态图像特征匹配方法,其特征在于,所述BasicBlock由两个3
×
3卷积,两个BatchNorm归一化函数,一个ReLU激活组成;所述UpConv块由一个双线性插值函数,一个3
×
3卷积,一个BatchNorm函数组成;所述Connect块,由一个Concat函数组成。4.如权利要求3所述的基于空间和通道双维度注意的多模态图像特征匹配方法,其特征在于,所述步骤S2中,使用空间注意力在空间维度进行特征交互步骤的表达式,具体为:x
s
=Attention(x)Q=xW
Q
K=xW
K
V=xW
V
其中,矩阵W是根据输入生成向量Q,K,V的可学习矩阵,d是缩放因子,x
s
是经过空间信息交互的特征图,x为特征图。5.如权利要求4所述的基于空间和通道双维度注意的多模态图像特征匹配方法,其特征在于,所述步骤S3中,所述位置编码采用基于卷积的位置编码,由一个3
×
3卷积,一个GLEU()激活函数组成。6.如权利要求5所述的基于空间和通道双维度注意的多模态图像特征匹配方法,其特征在于,所述位置编码的表达式,具体为:x
p
=GLEU(Conv3×3(x
s
)+x
s
其中Conv3×3表示3
×
3卷积,x
p
表示加入位置信息后的特征图。7.如权利要求6所述的基于空间和通道双维度注意的多模态图像特征匹配方法,其特征在于,所述步骤S4,具体包括:基于x
p
和三个可学习矩阵W
c
,获得查询向量Q
c
,键向量K

【专利技术属性】
技术研发人员:刘俊晖廖赟段清吴旭宁邸一得周豪朱开军刘沛瑜潘志轩
申请(专利权)人:云南览易网络科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1