当前位置: 首页 > 专利查询>长安大学专利>正文

一种多尺度增强学习的跨模态图像匹配方法组成比例

技术编号:38608185 阅读:20 留言:0更新日期:2023-08-26 23:38
本发明专利技术公开了一种多尺度增强学习的跨模态图像匹配方法,包括以下步骤:S1.在神经网络模型中输入基准图和实时图;S2.基于ResNet网络对所述基准图和实时图进行特征提取,将ResNet网络中的第2、3、4层特征通过区域推荐模块得到实时图特征在基准图特征中的相关区域;S3.通过Transformer特征融合模块对步骤S2中ResNet网络提取出来的特征进行融合;S4.将步骤S3中的融合特征输入到特征解码模块中,得到实时图在基准图中的位置;S5.输出步骤S4中得到的位置匹配结果。本发明专利技术所输入的不同模态的基准图和实时图,都能得到实时图在基准图中的准确位置,不论是SAR图像、可见光图像还是远红外图像都能够得到较好的匹配结果,与传统匹配方法相比,该方法潜力大、鲁棒性强、效率高。效率高。效率高。

【技术实现步骤摘要】
一种多尺度增强学习的跨模态图像匹配方法


[0001]本专利技术属于人工智能和机器学习
,具体涉及一种多尺度增强学习的跨模态图像匹配方法。

技术介绍

[0002]目前提出的针对跨模态影像算法主要将研究重点放在特征相似性测度的模态不变性问题上。当前,提出衡量跨模态图像的相似性的主要方法包括模板匹配算法.、灰度相关算法和快速傅立叶算法等,通过利用图像中像素的灰度值统计信息去衡量图像之间的相似性和利用一些特定的搜索方法使图像之间的相似性测度达到最大,以实现跨模态图像匹配。计算跨模态影像的相似性算法一般采用互信息、梯度、自相似性等作为相似性测度,具有较为简单且易于实现的优势,但这种方法的缺点主要是参数较多,计算量相对较大,不符合人工智能领域算法轻量化的发展趋势,同时对多模态图像中常出现的灰度失真和目标形变较为敏感,如果在两幅图像上探测到的失真率较高、形变量较大,则会导致特征的重现率非常低,那么特征匹配可靠性的前提就难以保证。因此研究跨模态影像匹配相对于传统可见光图像匹配来说更为复杂,因为各种传感器成像原理不同,多模态影像之间的差异远远大于单一可见光图像,并且多模态影像会受到不同拍摄视角、时间和形变等多方面因素影响。
[0003]作为人工智能最重要的基础技术之一,近年来深度学习逐步延伸到了图像领域,在图像分类、目标识别与检测等场景下的应用也越来越广泛。卷积神经网络作为深度学习模型的组成单元,能通过训练学习到包括纹理、边缘、形状以及图像的拓扑结构等特征,对特征的表达更为全面。此外基于卷积神经网络的特征提取算法可以利用神经网络提取出高层级的图像特征,这些特征也被证明在异源图像上存在着相似性,进而展现出了比传统算法更高的潜力,避免了传统匹配算法鲁棒性低、效率低下的问题。

技术实现思路

[0004]为了解决现有技术中的问题,本专利技术提供了一种多尺度增强学习的跨模态图像匹配方法,所述方法包括以下步骤:
[0005]S1.在神经网络模型中输入基准图和实时图;
[0006]S2.基于ResNet网络对所述基准图和实时图进行特征提取,并将ResNet网络中的第2、3、4层特征通过区域推荐模块得到第2、3、4层特征的三个尺度下的实时图特征在基准图特征中的相关区域;
[0007]S3.通过Transformer特征融合模块对步骤S2中ResNet网络提取出来的特征进行融合;
[0008]S4.将步骤S3中的融合特征输入到特征解码模块中,得到实时图在基准图中的位置;
[0009]S5.输出步骤S4中得到的位置匹配结果。
[0010]进一步地,所述步骤S2中基于ResNet网络得到实时图特征提取网络以及基准图特征提取网络,并将实时图特征提取网络以及基准图特征提取网络中的残差块特征提取出来,利用区域推荐模块进行互相关运算以得到实时图在基准图中的相关区域。
[0011]进一步地,所述互相关运算的具体计算过程如下:
[0012]实时图特征表示为:第i个实时图残差块特征表示为:
[0013]基准图特征表示为:第i个基准图残差块特征表示为:
[0014]其中,B为训练数据的Batchsize大小,c为特征维度,h
i
、w
i
以及H
i
、W
i
为特征大小,并且h
i
<H
i
,w
i
<W
i
,H为输入基准图的高,W为输入基准图的宽,h为输入实时图的高,w为输入实时图的宽,
[0015]此时,相关性特征可表示为:
[0016][0017]其中,i代表第i个残差块;代表卷积相关操作,包含卷积、Batch Normalization以及ReLU;符号*代表互相关运算。
[0018]进一步地,将所述实时图特征做为卷积核,在所述基准图特征上做步长为1的卷积运算,并在每个特征通道都对应地进行相关性计算,得到相关性特征
[0019][0020]进一步地,将所述实时图特征先通过线性插值的方式上采样到与基准图特征相同大小后与基准图特征在特征维度上进行拼接和转置得到Transformer特征融合模块的输入特征f
in

[0021]其中,D=2
×
C,
[0022]其中,N为特征在空间上展平之后的个数,H为输入基准图的高,W为输入基准图的宽,h为输入实时图的高,c为特征的维度。
[0023]进一步地,所述输入特征f
in
被分割为固定大小的2D补丁序列,然后添加一个可学习的位置编码以增加位置信息,从而得到f,f为对于每一个输入的特征添加一个位置编码后得到的特征,
[0024]f=[f1;f
:
;f3;

;f
N
]+E
pos

[0025]进一步地,所述Transformer特征融合模块中变压器的骨干网络由L个块组成,每个块由一个多头自注意层(MSA)和一个前馈网络(FFN)组成,其中,单头注意力计算如下:
[0026][0027]其中,Q为查询矩阵,K为键矩阵,V为值矩阵,d
k
为比例因子,
[0028]为了对不同的特征子空间得到更有效的注意力结果,多头自注意力将多个单头自注意力的输出进行串联,并将其投射到另一个参数矩阵上:
[0029][0030][0031]其中,为第l个变压器块第i个注意头中的参数矩阵,f
l
为第l个块的输入,然后将MSA的输出送到MLP组成的前馈神经网络中,产生变压器块的输出f
l+1

[0032]计算流程如下所示:
[0033]f
l

=MSA(f
l
)+f
l
,f
l+1
=FFN(f
l

)+f
l

[0034]最后得到的特征为将f
out
再经过转置操作后得到输入到特征解码模块中的特征
[0035]进一步地,所述特征解码模块包含五个解码层,分别为第一解码层、第二解码层、第三解码层、第四解码层以及第五解码层,每个解码层都要经过卷积、批标准化、ReLU激活以及上采样的操作步骤来得到每个解码层的输出特征。
[0036]进一步地,通过使用所述特征解码模块解码特征的具体步骤为:
[0037]1)将融合后的特征经过所述第一个解码层得到特征再将第四残差块得到的相关性特征进行上采样,得到与相同的大小的h和w,从而得到经过Sigmoid激活函数使特征值分布在0

1之间,再将与激活后的值进行残差连接得到所述第一个解码层的输出特征为
[0038]2)将所述第一个解码层的输出特征输入到所述第二个解码层得到特征再将第三个残差块得到的相关性特征进行上采本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多尺度增强学习的跨模态图像匹配方法,其特征在于,所述方法包括以下步骤:S1.在神经网络模型中输入基准图和实时图;S2.基于ResNet网络对所述基准图和实时图进行特征提取,并将ResNet网络中的第2、3、4层特征通过区域推荐模块得到第2、3、4层特征的三个尺度下的实时图特征在基准图特征中的相关区域;S3.通过Transformer特征融合模块对步骤S2中ResNet网络提取出来的特征进行融合;S4.将步骤S3中的融合特征输入到特征解码模块中,得到实时图在基准图中的位置;S5.输出步骤S4中得到的位置匹配结果。2.根据权利要求1所述的多尺度增强学习的跨模态图像匹配方法,其特征在于,所述步骤S2中基于ResNet网络得到实时图特征提取网络以及基准图特征提取网络,并将实时图特征提取网络以及基准图特征提取网络中的残差块特征提取出来,利用区域推荐模块进行互相关运算以得到实时图在基准图中的相关区域。3.根据权利要求2所述的多尺度增强学习的跨模态图像匹配方法,其特征在于,所述互相关运算的具体计算过程如下:实时图特征表示为:第i个实时图残差块特征表示为:基准图特征表示为:第i个基准图残差块特征表示为:其中,B为训练数据的Batchsize大小,c为特征维度,h
i
、w
i
以及H
i
、W
i
为特征大小,并且h
i
<H
i
,w
i
<W
i
,H为输入基准图的高,W为输入基准图的宽,h为输入实时图的高,w为输入实时图的宽,此时,相关性特征可表示为:其中,i代表第i个残差块;代表卷积相关操作,包含卷积、Batch Normalization以及ReLU;符号*代表互相关运算。4.根据权利要求3所述的多尺度增强学习的跨模态图像匹配方法,其特征在于,将所述实时图特征做为卷积核,在所述基准图特征上做步长为1的卷积运算,并在每个特征通道都对应地进行相关性计算,得到相关性特征对应地进行相关性计算,得到相关性特征5.根据权利要求4所述的多尺度增强学习的跨模态图像匹配方法,其特征在于,将所述实时图特征先通过线性插值的方式上采样到与基准图特征相同大小后与基准图特征在特征维度上进行拼接和转置得到Transformer特征融合模块的输入特征f
in
,其中,D=2
×
C,
其中,N为特征在空间上展平之后的个数,H为输入基准图的高,W为输入基准图的宽,h为输入实时图的高,c为特征的维度。6.根据权利要求5所述的多尺度增强学习的跨模态图像匹配方法,其特征在于,所述输入特征f
in
被分割为固定大小的2D补丁序列,然后添加一个可学习的位置编码以增加位置信息,从而得到f,f为对于每一个输入的特征添加一个位置编码后得到的特征,f=[f1;f
:
;f3;

;f
N
]+E
pos
。7.根据权利要求6所述的多尺度增强学习的跨模态图像匹配方法,其特征在于,所述Transforme...

【专利技术属性】
技术研发人员:赵天慈白雪房建武席江波王洁
申请(专利权)人:长安大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1