一种基于双分支并行深度交互协同的多源图像块匹配方法组成比例

技术编号:38537406 阅读:11 留言:0更新日期:2023-08-19 17:07
本发明专利技术涉及一种基于双分支并行深度交互的多源图像块匹配方法,属于图像处理技术领域。设计了一种高精度的多源图像块匹配网络模型,使用由孪生和伪孪生构成的四分支网络提取跨模态图像间的共有特征和私有特征。使用尺度通道注意力模块对不同尺度特征分别进行编码,每个尺度都通过通道注意力提取跨模态一致性特征;同时设计空间相关性特征增强模块学习不同模态间特征的相关度。最后采用深度交互融合与预测模块对空间和通道特征融合并预测匹配结果。本发明专利技术的SCCA

【技术实现步骤摘要】
networks by minimising global loss functions[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2016:5385.”中提出使用孪生网络和三元组网络,并引入了全局损失来最小化匹配对之间的平均距离,最大化不匹配对间的平均距离,提高图像匹配性能。2018年,Yuki等人在文献“Learning local features from images[J].Advances in neural information processing systems,2018,31.”中首次提出一种端到端的图像匹配网络LF

Net,整个网络通过多尺度全卷积网络和关键点描述网络分别学习关键点位置、尺度、方向和特征描述子。2019年Shen等人在文献“Rf

net:An end

to

end image matching network based on receptive field[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:8132

8140”中改进了特征检测网络,在提取特征点响应分布时,通过多尺度感受野提升特征检测精度,并引入了新的损失函数近邻掩码来提高匹配性能。
[0007]但是目前基于深度学习的图像匹配方法结果的精度还存在着一些问题:1.由于多源图像间存在较大的外观差异,同一图像对的不同尺度特征可能具有不同的相似度,现有方法难以精确度量图像相似度。2.现有方法在特征提取过程中更多关注网络浅层学习到的空间信息,没有充分利用网络中层和深层所保留的特征细节和语义信息。导致网络深层无法进行有效的特征交互学习。因此设计一个高精度的图像匹配网络是非常有必要的。

技术实现思路

[0008]要解决的技术问题
[0009]针对现有图像匹配方法结果精度较低的问题,本专利技术提供一种基于双分支并行深度交互的多源图像块匹配方法。
[0010]技术方案
[0011]一种基于双分支并行深度交互的多源图像块匹配模型,其特征在于包括四分支多模态特征提取模块、多尺度通道注意力模块、空间相关性特征增强模块和深度交互融合与预测模块;
[0012]所述四分支多模态特征提取模块将两个不同模态的图像块对T1、T2分别输入孪生子网络和伪孪生子网络中提取特征,其中孪生子网络表示两个共享参数且结构相同的分支,伪孪生子网络表示结构相同但不共享参数的分支;随后将同一模态图像在不同子网络中学习到的两个具有高级语义信息向量沿通道堆叠,得到特征向量F
m1
、F
m2

[0013]所述多尺度通道注意力模块是指将所述四分支多模态特征提取模块输出的特征F
m1
、F
m2
沿通道堆叠,然后通过3
×
3,5
×
5,7
×
7,9
×
9的卷积核得到四组不同尺度特征向量F0,F1,F2,F3,每个尺度依次执行通道注意力SE后与其自身逐元素相乘,得到特征向量F0′
,F1′
,F2′
,F3′
,随后F0′
,F1′
,F2′
,F3′
沿通道维度堆叠,堆叠后的特征向量输入到Transformer编码器模块中,得到的特征表示通过残差的方式与其本身相加得到特征向量F
msa
作为输出;
[0014]所述空间相关性特征增强模块将所述四分支多模态特征提取模块输出的特征F
m1
、F
m2
进行相关运算,学习二者之间的相关度;然后,利用Transformer模块的编码器结构建立远程依赖关系并获取全局上下文信息,得到的特征表示通过残差的方式与其自身相加得到特征向量F
psa
作为输出;
[0015]所述深度交互融合与预测模块将特征向量F
psa
与F
msa
送入空间相关性特征增强模
块与多尺度通道注意力模块中,最后使用三个全连接层操作预测网络最终结果。
[0016]一种基于双分支并行深度交互的多源图像块匹配方法,其特征在于步骤如下:
[0017]步骤1:将不同模态的图像块对T1、T2分别输入孪生子网络和伪孪生子网络中提取特征,随后将同一模态图像在不同子网络中学习到的两个具有高级语义信息向量沿通道堆叠,得到特征向量F
m1
、F
m2

[0018]步骤2:将由四分支多模态特征提取模块输出的特征F
m1
、F
m2
通道堆叠后得到特征图F
u
,新的特征图F
u
的分辨率记为H
u
×
W
u
,其中H
u
=H
input
,W
u
=W
input
,H
input
与W
input
为输入图像对T的分辨率大小;将F
u
分别通过3
×
3,5
×
5,7
×
7,9
×
9卷积后得到新的特征向量F0,F1,F2,F3,每组特征向量分辨率记为H
s
×
W
s
,通道数记为C
s
,H
s
=H
u
/4,W
s
=W
u
/4,C
s
=C
u
/4,其中H
u
与W
u
为特征F
u
的分辨率大小,C
u
为特征F
u
的通道数;随后,在每个尺度依次执行通道注意力SE后与其自身逐元素相乘,得到特征向量F0′
,F1′
,F2′
,F3′
,F0′
,F1′
,F2′
,F3′
沿通道维度堆叠,堆叠后的特征向量输入到Transformer编码器模块中,通过Transformer模块内的两个多头注意力模块融合不同尺度的特征信息,得到的特征向量通过残差的方式与其本身相加得到特征向量F
msa
作为输出;
[0019]步骤3:将由四分支多模态特征提取模块提取的特征F
m1
、F
m2
输入到所述空间相关性特征增强模块,使用特征图F
m1
与F
m2
进行相关运算,学习二者之间的相关度;然后,利用Transfor本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双分支并行深度交互的多源图像块匹配模型,其特征在于包括四分支多模态特征提取模块、多尺度通道注意力模块、空间相关性特征增强模块和深度交互融合与预测模块;所述四分支多模态特征提取模块将两个不同模态的图像块对T1、T2分别输入孪生子网络和伪孪生子网络中提取特征,其中孪生子网络表示两个共享参数且结构相同的分支,伪孪生子网络表示结构相同但不共享参数的分支;随后将同一模态图像在不同子网络中学习到的两个具有高级语义信息向量沿通道堆叠,得到特征向量F
m1
、F
m2
;所述多尺度通道注意力模块是指将所述四分支多模态特征提取模块输出的特征F
m1
、F
m2
沿通道堆叠,然后通过3
×
3,5
×
5,7
×
7,9
×
9的卷积核得到四组不同尺度特征向量F0,F1,F2,F3,每个尺度依次执行通道注意力SE后与其自身逐元素相乘,得到特征向量F0′
,F1′
,F2′
,F3′
,随后F0′
,F1′
,F2′
,F3′
沿通道维度堆叠,堆叠后的特征向量输入到Transformer编码器模块中,得到的特征表示通过残差的方式与其本身相加得到特征向量F
msa
作为输出;所述空间相关性特征增强模块将所述四分支多模态特征提取模块输出的特征F
m1
、F
m2
进行相关运算,学习二者之间的相关度;然后,利用Transformer模块的编码器结构建立远程依赖关系并获取全局上下文信息,得到的特征表示通过残差的方式与其自身相加得到特征向量F
psa
作为输出;所述深度交互融合与预测模块将特征向量F
psa
与F
msa
送入空间相关性特征增强模块与多尺度通道注意力模块中,最后使用三个全连接层操作预测网络最终结果。2.一种利用权利要求1所述的模型实现的基于双分支并行深度交互的多源图像块匹配方法,其特征在于步骤如下:步骤1:将不同模态的图像块对T1、T2分别输入孪生子网络和伪孪生子网络中提取特征,随后将同一模态图像在不同子网络中学习到的两个具有高级语义信息向量沿通道堆叠,得到特征向量F
m1
、F
m2
;步骤2:将由四分支多模态特征提取模块输出的特征F
m1
、F
m2
通道堆叠后得到特征图F
u
,新的特征图F
u
的分辨率记为H
u
×
W
u
,其中H
u
=H
input
,W
u
=W
input
,H
input
与W
input

【专利技术属性】
技术研发人员:张艳宁张秀伟李艳平孙怡王文娜邢颖慧
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1