一种基于Transformer网络的端到端模板匹配方法组成比例

技术编号:38855719 阅读:32 留言:0更新日期:2023-09-17 10:01
本发明专利技术公开了一种基于Transformer网络的端到端模板匹配方法,包括如下步骤:(1)在模板图像中确定搜索目标并给出搜索目标在模板图像中的位置信息;(2)对模板图像和搜索图像进行预处理以及提取模板图像和搜索图像的特征向量;(3)将提取的特征向量进行特征学习和关系建模得到增强特征序列;(4)将目标查询和增强特征序列输入到解码器中,将得到的输出特征中与搜索图像特征对应的部分取出;(5)在搜索图像中定位目标并框出目标以及输出目标的位置信息。这种方法优于当前最先进模板匹配方法的性能与速度,效果稳定。效果稳定。效果稳定。

【技术实现步骤摘要】
一种基于Transformer网络的端到端模板匹配方法


[0001]本专利技术涉及遥感领域下一种在背景杂波、遮挡和非刚性变形等情况下的模板匹配技术,具体是一种基于Transformer网络的端到端模板匹配方法。

技术介绍

[0002]在人类对事物的不断认知过程中,大部分外部信息是由视觉器官获取的,视觉对人类的发展起到了非常重要的作用。并且随着计算机技术的快速发展和图像信息处理技术的不断提高,人类对现实事物有了更深入的认识。机器视觉技术就是通过一些多媒体设备如相机、摄像头来获取我们所需的图像,并把这些图像存储在计算机中之后利用计算机来对这些有用的图像信息进行提取和处理,并最终来完成人眼无法完成的任务。
[0003]正因为机器视觉在当今发挥着越来越重要的作用,所以对机器视觉相关的研究也成为了热门。在机器视觉中,对目标进行识别和定位是一个重要的研究课题,而模板匹配恰好在其中扮演着重要的角色。模板匹配能够根据一幅已知的模板图像,在另外一幅未知搜索图像中,精准的匹配出模板图像位置,从而来完成目标的识别和定位,是一种寻找图像中包含特定对象或图像特征的矩形区域的技术。这些图像可能是在相同或不同的时间,由相同或不同的传感器,从相同或不同的视角拍摄的。它是计算机视觉的一项基本技术,被广泛用于许多任务,如物体检测、医学图像处理和遥感、视频跟踪等。
[0004]为了在搜索图像中定位目标,我们通常需要一个相似度图来量化模板与搜索图像中每个候选补丁的匹配程度。经典的模板匹配方法一般通过比较对应位置的像素强度或颜色值来计算模板与候选补丁之间的相似度,例如应用于像素强度或颜色值的归一化互相关(NCC)、平方差和(SSD)或零均值归一化互相关(ZNCC)。然而,由于这些方法依赖于将模板中的值与图像布丁中相应位置的值进行比较,因此它们对光照条件的变化、目标物体的非刚性变形或部分遮挡的变化很敏感,这导致当发生一种或多种情况时,相似度得分很低,在实际场景中通常会失败,因此,采用传统的模板匹配方法通常无法克服图像信息变化带来的干扰。
[0005]为了解决现实场景中的这些困难,人们提出了许多新的模板匹配方法,主要分为两大类。一类是对模板和搜索图像之间的特定参数转换进行建模。这种方法在许多情况下都表现良好,但是在处理复杂的非刚性变换时需要估计大量的参数,此外,这些方法在遮挡和背景杂波的情况下仍然失败。另一类是通过设计新的相似度度量来提高模板匹配方法在复杂场景下的鲁棒性。这类方法在遮挡和背景杂波存在的情况下表现良好,但其性能仍然受到尺度差异的很大影响。

技术实现思路

[0006]本专利技术的目的是针对现有模板匹配方法的不足,而提供一种基于Transformer网络的端到端模板匹配方法。这种方法优于当前最先进模板匹配方法的性能与速度,效果稳定。
[0007]实现本专利技术目的的技术方案是:
[0008]一种基于Transformer网络的端到端模板匹配方法,包括如下步骤:
[0009](1)在模板图像中确定搜索目标并给出搜索目标在模板图像中的位置信息,首先在模板图像中确定好需要寻找的目标并给出其在模板图像中的位置信息,即确认在搜索图像中需要搜索的是哪个目标;
[0010](2)对模板图像和搜索图像进行预处理以及提取模板图像和搜索图像的特征向量:在Transformer网络中输入图像对,图像对为模板图像和搜索图像,然后对模板图像和搜素图像进行预处理并提取它们的特征信息,具体步骤如下:
[0011]2‑
1)将模板图像和搜索图像进行分割并扁平化为多个分辨率大小为P
×
P的切片并分别展成向量和其中
·

×
均表示乘法运算,3表示图像通道数,N
t
=H
t
W
t
/P2和N
s
=H
s
W
s
/P2分别为模板和搜索图像的切片个数,H
t
和H
s
分别表示模板图像和搜索图像的高度,W
t
和W
s
分别表示模板图像和搜索图像的宽度,/为除法运算;
[0012]2‑
2)使用一个全连接层E将T
p
和S
p
向量映射到D维潜在空间中,其操作公式如下所示:
[0013][0014][0015]其中
·

×
均表示乘法运算;该映射的输出通常被称为补丁嵌入,然后将可学习的1D位置编码P
t
和P
s
分别添加到模板和搜索图像补丁的补丁嵌入中,P
t
和P
s
分别表示模板图像补丁和搜索图像补丁中的位置向量,然后得到最终的模板图像标记嵌入和搜索图像标记嵌入
[0016]2‑
3)最后将嵌入向量系列和拼接得到特征向量并作为下一个模块的输入;
[0017](3)将提取的特征向量进行特征学习和关系建模得到增强特征序列:将步骤2)中得到的特征向量输入到由交替的多头自注意力层即MSA和MLP块组成的模块中用于学习序列中所有元素之间的特征依赖关系,并用全局上下文信息强化原始特征,从而使网络能够学习用于对象定位的判别特征,具体公式如下:
[0018]K

ι
=MSA(LN(K
ι
‑1))+K
ι
‑1,ι=1
···
L,
[0019]K
ι
=MLP(LN(K

ι
))+K

ι
,ι=1
···
L,
[0020]在MSA和MLP块的前面都运用LN做归一化处理,并且这两个块的后面都使用了残差连接,最终得到一个增强特征序列,其中MLP包含两个具有GELU非线性的层,即归纳偏置和混合架构;将GELU非线性函数作为层的激活函数能通过引入合适的归纳偏置来提升模型的性能,运用混合架构能进一步提升模型的性能和表达能力;
[0021](4)将目标查询和增强特征序列输入到解码器中,将得到的输出特征中与搜索图像特征对应的部分取出:解码器堆叠了M个解码器层,每个解码器层由自注意力层、编解码注意力层和前馈网络组成,解码器将目标查询和由步骤3)得到的增强特征序列作为输入,解码器能够捕获上下文信息,对特征进行非线性变换和映射,增强特征表示的表达能力,并
利用多层卷积操作将特征映射降采样到低分辨率,以便适应目标的尺度变化,最终得到面向搜索目标的特征;目标查询可以关注模板和搜索图像特征的每个位置,进而学习到鲁棒的表达;
[0022](5)在搜索图像中定位目标并框出目标以及输出目标的位置信息:具体操作是,先将从编码器的输出序列中提取出搜索图像的特征和将解码器输出得到的面向搜索目标的特征作为模块的输入来计算他们之间的相似度,然后,将相似度分数与搜索图像特征进行逐元素相乘,得到新特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer网络的端到端模板匹配方法,其特征在于,包括如下步骤:(1)在模板图像中确定搜索目标并给出搜索目标在模板图像中的位置信息,首先在模板图像中确定好需要寻找的目标并给出其在模板图像中的位置信息,即确认在搜索图像中需要搜索的是哪个目标;(2)对模板图像和搜索图像进行预处理以及提取模板图像和搜索图像的特征向量:在Transformer网络中输入图像对,图像对为模板图像和搜索图像,然后对模板图像和搜素图像进行预处理并提取它们的特征信息,具体步骤如下:2

1)将模板图像和搜索图像进行分割并扁平化为多个分辨率大小为P
×
P的切片并分别展成向量和其中
·

×
均表示乘法运算,3表示图像通道数,N
C
=H
t
W
t
/P2和N
s
=H
s
W
s
/P2分别为模板和搜索图像的切片个数,H
t
和H
s
分别表示模板图像和搜索图像的高度,W
t
和W
s
分别表示模板图像和搜索图像的宽度,/为除法运算;2

2)使用一个全连接层E将T
p
和S
p
向量映射到D维潜在空间中,其操作公式如下所示:其操作公式如下所示:其中
·

×
均表示乘法运算;该映射的输出通常被称为补丁嵌入,然后将可学习的1D位置编码P
t
和P
s
分别添加到模板和搜索图像补丁的补丁嵌入中,P
t
和P
s
分别表示模板图像补丁和搜索图像补丁中的位置向量,然后得到最终的模板图像标记嵌入和搜索图像标记嵌入2

3)最后将嵌入向量系列和拼接得到特征向量并作为下一个模块的输入;(3)将提取的特征向量进行特征学习和关系建模得到增强特征序列:将步骤2)中得到的特征向量输入到由交替的多头自注意力层即MSA和MLP块组成的模块中用于学习序列...

【专利技术属性】
技术研发人员:陈明吴冬柳肖远辉田旭李祺峰韦升喜崔子源
申请(专利权)人:广西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1