【技术实现步骤摘要】
一种基于Transformer网络的端到端模板匹配方法
[0001]本专利技术涉及遥感领域下一种在背景杂波、遮挡和非刚性变形等情况下的模板匹配技术,具体是一种基于Transformer网络的端到端模板匹配方法。
技术介绍
[0002]在人类对事物的不断认知过程中,大部分外部信息是由视觉器官获取的,视觉对人类的发展起到了非常重要的作用。并且随着计算机技术的快速发展和图像信息处理技术的不断提高,人类对现实事物有了更深入的认识。机器视觉技术就是通过一些多媒体设备如相机、摄像头来获取我们所需的图像,并把这些图像存储在计算机中之后利用计算机来对这些有用的图像信息进行提取和处理,并最终来完成人眼无法完成的任务。
[0003]正因为机器视觉在当今发挥着越来越重要的作用,所以对机器视觉相关的研究也成为了热门。在机器视觉中,对目标进行识别和定位是一个重要的研究课题,而模板匹配恰好在其中扮演着重要的角色。模板匹配能够根据一幅已知的模板图像,在另外一幅未知搜索图像中,精准的匹配出模板图像位置,从而来完成目标的识别和定位,是一种寻找图像中包含特定对象或图像特征的矩形区域的技术。这些图像可能是在相同或不同的时间,由相同或不同的传感器,从相同或不同的视角拍摄的。它是计算机视觉的一项基本技术,被广泛用于许多任务,如物体检测、医学图像处理和遥感、视频跟踪等。
[0004]为了在搜索图像中定位目标,我们通常需要一个相似度图来量化模板与搜索图像中每个候选补丁的匹配程度。经典的模板匹配方法一般通过比较对应位置的像素强度或颜色值来计算模板与 ...
【技术保护点】
【技术特征摘要】
1.一种基于Transformer网络的端到端模板匹配方法,其特征在于,包括如下步骤:(1)在模板图像中确定搜索目标并给出搜索目标在模板图像中的位置信息,首先在模板图像中确定好需要寻找的目标并给出其在模板图像中的位置信息,即确认在搜索图像中需要搜索的是哪个目标;(2)对模板图像和搜索图像进行预处理以及提取模板图像和搜索图像的特征向量:在Transformer网络中输入图像对,图像对为模板图像和搜索图像,然后对模板图像和搜素图像进行预处理并提取它们的特征信息,具体步骤如下:2
‑
1)将模板图像和搜索图像进行分割并扁平化为多个分辨率大小为P
×
P的切片并分别展成向量和其中
·
和
×
均表示乘法运算,3表示图像通道数,N
C
=H
t
W
t
/P2和N
s
=H
s
W
s
/P2分别为模板和搜索图像的切片个数,H
t
和H
s
分别表示模板图像和搜索图像的高度,W
t
和W
s
分别表示模板图像和搜索图像的宽度,/为除法运算;2
‑
2)使用一个全连接层E将T
p
和S
p
向量映射到D维潜在空间中,其操作公式如下所示:其操作公式如下所示:其中
·
和
×
均表示乘法运算;该映射的输出通常被称为补丁嵌入,然后将可学习的1D位置编码P
t
和P
s
分别添加到模板和搜索图像补丁的补丁嵌入中,P
t
和P
s
分别表示模板图像补丁和搜索图像补丁中的位置向量,然后得到最终的模板图像标记嵌入和搜索图像标记嵌入2
‑
3)最后将嵌入向量系列和拼接得到特征向量并作为下一个模块的输入;(3)将提取的特征向量进行特征学习和关系建模得到增强特征序列:将步骤2)中得到的特征向量输入到由交替的多头自注意力层即MSA和MLP块组成的模块中用于学习序列...
【专利技术属性】
技术研发人员:陈明,吴冬柳,肖远辉,田旭,李祺峰,韦升喜,崔子源,
申请(专利权)人:广西师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。