一种协同CNN与跨层交互Transformer的跨视角跨模态图像地理定位方法技术

技术编号：37987813 阅读：22 留言：0更新日期：2023-06-30 10:02

本发明专利技术涉及一种协同CNN与跨层交互Transformer的跨视角跨模态图像地理定位方法，设计了一种高精度的跨视角地理定位网络模型，利用金字塔拆分注意力模块优化局部细节特征，采用Transformer跨层捕捉全局依赖关系，并应用多源融合机制方法，可以提升跨视角地理定位网络的性能。使得每个分支不仅通过跨层交互机制关注自身特征的变化，而且也能通过多源融合机制去关注另一个分支中源图像的重要特征，促进对定位有用的重要信息在两个源图像之间流动，进而提取到更具辨别性的特征，得到更好的定位精度。本发明专利技术在仅检索一张图像的情况下获得的定位准确率是现有地理定位方法的3

全部详细技术资料下载

【技术实现步骤摘要】
一种协同CNN与跨层交互Transformer的跨视角跨模态图像地理定位方法

[0001]本专利技术涉及地理定位方法，具体是一种协同CNN与跨层交互Transformer的跨视角跨模态图像地理定位方法。

技术介绍

[0002]地理定位是计算机视觉中十分重要的研究领域。基于图像的地理定位是在GPS信号弱或受干扰以及基站定位误差大不足条件下一种重要的辅助定位方法，通过图像检索技术匹配未知位置的查询图像与带有地理标记的参考图像数据库，实现未知位置的定位。基于卫星俯视图
‑
地面街景图的跨视角地理定位是基于图像地理定位的重要研究方向，由于卫星俯视图便于采集且覆盖区域广，地面街景图可实时获取，该技术自动驾驶、机器人导航寻迹、三维重建等领域发挥着重要作用。
[0003]基于卫星俯视图
‑
地面街景图的多源图像跨视角地理定位问题通常指的是通过地面相机获取到的街景图与通过卫星设备获取的俯视图进行匹配查询，一般被定义为一种图像检索任务。传统的方法主要通过人工设计的特征描述子对同一场景下的多张图像进行对齐...

【技术保护点】

【技术特征摘要】
1.一种协同CNN与跨层交互Transformer的跨视角跨模态图像地理定位方法，其特征在于步骤如下：步骤1：基于金字塔拆分注意力CNN的多源图像特征提取模块；将卫星图像I
s
和地面全景图像I
g
分别输入到特征提取网络的两个分支中，每个分支由ResNet
‑
50和金字塔拆分注意力模块PSA组成，即EPSANet
‑
50；EPSANet
‑
50是将ResNet
‑
50中的3
×
3卷积核用金字塔拆分注意力PSA模块替换，输出具有通道间关系的特征图和它们的大小均为[H,W,C]，其中H为高度，W为宽度，C为通道数；步骤2：基于跨层交互与多源融合Transformer模块融合特征；步骤2
‑
1：将特征图和分别拉平为一列特征块，为和则将特征块X
p1
映射为一列序列的公式为将特征块X
p2
映射为一列序列的公式为其中，X
class
‑
p1
为特征块X
p1
加入的分类嵌入标记，X
class
‑
p2
为特征块X
p2
加入的分类嵌入标记，表示X
p1
中第1,2,
…
,N
p1
个特征块，表示X
p2
中第1,2,
…
,N
p2
个特征块，E
p1
和E
p2
分别表示对特征块X
p1
和X
p2
使用的投影参数，大小为[1,1,C]；E
pos1
表示X
p1
的位置编码PE特征嵌入，E
pos2
表示X
p2
的位置编码PE特征嵌入；位置编码PE是采用不同频率的正弦和余弦函数来实现，位置编码的公式如下：其中，pos表示每个特征块的位置，pos的范围为[1,N]，i表示第i个特征编号，i的范围为[1,C]；即位置编码的每个维度对应于正弦曲线；波长形成从2π到10000
·
2π的几何级数；该步骤以Z
p1
和Z
p2
为输出；步骤2
‑
2：将Z
p1
和Z
p2
输入跨层交互模块中，利用Transformer相邻层特征块交互来学习图像全局上下文信息；Transformer共有12层，在前8层应用跨层交互模块；第l层的注意力图不仅基于第l
‑
1层特征块学习，也基于第l
‑
2层特征块学习；经过矩阵映射以及注意力计算可以得到第l层的注意力为Att
l
，进而得到Z
p1
‑
cl
和...

【专利技术属性】
技术研发人员：张秀伟，张艳宁，黄龙，范文超，王怡欣，尹翰林，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人