基于Transformer的多尺度行人重识别方法技术

技术编号:36436013 阅读:15 留言:0更新日期:2023-01-20 22:49
本发明专利技术公开了基于Transformer的多尺度行人重识别方法。本发明专利技术提出了一种基于多尺度行人特征提取和Transformer的行人重识别网络。首先,我们设计了一个多尺度特征级联模块,旨在挖掘行人不同深度,不同尺度下的细节特征信息,从而获得更强壮的特征表达。其次,构建了基于transformer的特征提取,从全局范围学习行人特征。最后将Transformer输出的特征进行聚合,以获得更好的行人特征表达,从而提升模型的辨别能力。结果表明,这种方法具有更好的鲁棒性和自适应能力,有效的增强了模型的泛化能力。力。力。

【技术实现步骤摘要】
基于Transformer的多尺度行人重识别方法


[0001]本文专利技术涉及行人重识别技术,具体来讲是一种基于Transformer的多尺度行人重识别方法,属于计算机视觉领域。

技术介绍

[0002]行人重识别旨在对不同摄像头捕获的行人图像进行关联,实现跨摄像头跨场景下的行人识别与检索,被广泛应用于智能监控领域。近年来,基于深度卷积网络的行人重识别方法取得了优秀的成果,但CNN受限于每次只能处理相邻特征并且在下采样等过程中容易丢失行人的细粒度特征,造成识别率的下降。同时,Transformer展现出对空间和序列数据的优秀建模能力。与CNN相比,Transformer移去了下采样操作,能保留更多的细粒度特征。
[0003]大多数基于Transformer的行人重识别方法,通常将整张图片分割后作为图片序列送入Transformer网络,然后使用全局token作为行人特征。然而,采用直接分割图片的方式既忽略了部分结构信息,也使得transformer网络收敛速度慢;将单一尺度的行人特征划分为特征序列后作为transformer网络的输入,忽略了行人特征的多尺度表达;在网络输出部分,丰富的行人局部特征仍未得到充分利用,而这部分特征提供了对行人重识别至关重要的细粒度信息。
[0004]基于上述,本专利技术提出了一种基于Transformer的多尺度行人重识别方法,利用多个尺度的图像特征所包含的丰富信息来优化对行人图像的特征提取。

技术实现思路

[0005]本专利技术的目的是针对现有技术的不足,提出了一种基于Transformer的多尺度行人重识别方法。通过构建特征级联模块,在保留行人低维度细节特征的同时引入高维特征的支持,并获得多个尺度的行人特征,缓解了Transformer网络对于大训练数据集的要求,能够帮助模型快速收敛并提升性能。同时,本方法将多个尺度的行人特征划分后构建多尺度特征序列并为其加上代表不同尺度的编码信息后输入同一个Transformer网络,引导模型关注输入的不同尺度下的行人信息。其次,构建局部特征多尺度融合模块,充分利用网络输出的多尺度行人细粒度局部特征,为每一个行人构建多尺度特征组,引导模型从局部到全局、浅层到深层挖掘更健壮的行人特征表达。
[0006]本专利技术解决其技术问题所采用的技术方案如下:
[0007]步骤(1)在残差网络ResNet50中引入特征级联分支,将相邻层不同尺度的特征图进行特征融合;
[0008]步骤(2)将(1)中融合后各个不同尺度的特征图进行特征分割,然后为每一个分割后的特征组加上可学习的[SCALE_TOKEN]表示不同尺度。将不同尺度分割后的各个子图展平,再加上表示位置的[POS_TOKEN]和全局特征[CLS_TOKEN],作为transformer的输入;
[0009]步骤(3)构建基于标准Transformer的行人特征提取网络,将(2)中获得的特征子图向量输入网络,获得行人特征;
[0010]步骤(4)构建局部特征多尺度融合模块,将步骤(3)得到特征进行切分,将[CLS_TOKEN]向量作为全局特征,同时将不同尺度的局部特征输入局部特征多尺度融合模块并重新切分得到最终特征;
[0011]步骤(5)使用步骤(4)中得到的[CLS_TOKEN]向量和多尺度融合向量按照训练策略训练,得到最终的ReID模型
[0012]进一步的,所述步骤(1)具体实现过程如下:
[0013]1‑
1采用在ImageNet上预训练过的ResNet50作为骨干网络,保留第一个池化后的阶段和主干部分的前三个阶段,去除最后的阶段、空间下采样操作、全局平均池化层和完全连接层;
[0014]1‑
2从ResNet50中获得1

1中保留的一共4个阶段的特征信息,并构建多尺度特征级联模块,通过相邻层之间的两两融合获得行人特征信息。首先对阶段1获得的特征进行上采样和1x1卷积,特征图大小变为原来的两倍。然后对阶段1和阶段2、阶段2和阶段3、阶段3和阶段4的特征进行特征融合,如公式(1)(2)所示;
[0015]F
sc
=Contact(UpSample(F
s
),F
b
)
ꢀꢀ
(1)
[0016]F
agg
=conv1×1(F
sc
)
ꢀꢀ
(2)
[0017]其中F
s
,F
b
表示两个需要融合的特征,UpSample表示上采样操作,Contact为向量连接操作,F
agg
为获得的融合特征。
[0018]进一步的,所述步骤(2)具体实现过程如下:
[0019]2‑
1对于获得的融合特征F
agg
,按照子特征图大小ps进行分割,生成特征图序列N为可分割的数量,再对x
P
加上一个可学习的[SCALE_TOKEN],[SCALE_TOKEN]的维度大小与x
P
相同,如公式(3)所示:
[0020][0021]其中为第k个尺度生成的特征图序列;E
scale
为[SCALE_TOKEN],表示可学习的特征尺度;
[0022]综上对1

2中获得的三个尺度的特征处理后加上[CLS_TOKEN]和[POS_TOKEN]可得到特征Z,如公式(4)所示;
[0023][0024]其中,x
cls
为[CLS_TOKEN]全局特征向量;分别为三个尺度的特征序列;E
pos
为[POS_TOKEN],表示空间位置。
[0025]进一步的,所述步骤(3)具体实现过程如下:
[0026]3‑
1为了充分利用多尺度信息,构建基于Transformer的行人多尺度特征提取模型。模型主要由多层堆叠的Transformer块构成,单个Transformer层由多头注意力机制(MSA)、层归一化(LN)和多层感知器(MLP)构成,单个Transformer块可公式化为(5)(6):
[0027]Z

l
=MSA(LN(Z
l
‑1))+Z
l

1 l=1

L
ꢀꢀ
(5)
[0028]Z
l
=MLP(LN(Z

l
))+Z

l l=1

L
ꢀꢀ
(6)
[0029]其中,Z
l
表示第l层Transformer块输出的特征,Z

l
为Transformer块内的中间结果,L为总层数。对于每张图像生成的多尺度特征Z,作为Transformer网络的输入,得到网络
输出结果即为最后一层的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于Transformer的多尺度行人重识别方法,其特征在于包括以下步骤:步骤一,在残差网络ResNet50中引入特征级联分支,将相邻层不同尺度的特征图进行特征融合;步骤二,将步骤一中融合后各个不同尺度的特征图进行特征分割,然后为每一个分割后的特征组加上可学习的[SCALE_TOKEN]表示不同尺度;将不同尺度分割后的各个子图展平,再加上表示位置的[POS_TOKEN]和全局特征[CLS_TOKEN],作为transformer的输入;步骤三,构建基于标准Transformer的行人特征提取网络,将步骤二中获得的特征子图向量输入网络,获得行人特征;步骤四,将步骤三得到特征进行切分,将[CLS_TOKEN]向量作为全局特征,同时将不同尺度的局部特征输入局部特征多尺度融合模块并重新切分得到最终特征;步骤五,使用步骤四中得到的[CLS_TOKEN]向量和多尺度融合向量按照训练策略训练,得到最终的ReID模型;步骤六,将待查询图片和测试集图片输入最终的ReID模型进行特征提取,对比查询图片特征与测试集图片是否属于同一类,输出同类的行人图片。2.根据权利要求1所述的一种基于Transformer的多尺度行人重识别方法,其特征在于,所述步骤一,包括以下子步骤:步骤1

1,采用在ImageNet上预训练过的ResNet50作为骨干网络,保留第一个池化后的阶段和主干部分的前三个阶段,去除最后的阶段、空间下采样操作、全局平均池化层和完全连接层;步骤1

2,从ResNet50中获得步骤1

1中保留的一共4个阶段的特征信息,并构建多尺度特征级联模块,通过相邻层之间的两两融合获得行人特征信息;首先对阶段1获得的特征进行上采样和1x1卷积,特征图大小变为原来的两倍;然后对阶段1和阶段2、阶段2和阶段3、阶段3和阶段4的特征进行特征融合,如公式(1)(2)所示;F
sc
=Contact(UpSample(F
s
),F
b
)
ꢀꢀꢀꢀ
(1)F
agg
=conv1×1(F
sc
)
ꢀꢀꢀꢀ
(2)其中F
s
,F
b
表示两个需要融合的特征,UpSample表示上采样操作,Contact为向量连接操作,F
agg
为获得的融合特征。3.根据权利要求2所述的一种基于Transformer的多尺度行人重识别方法,其特征在于,所述步骤二,包括以下子步骤:步骤2

1,对于获得的融合特征F
agg
,按照子特征图大小ps进行分割,生成特征图序列N为可分割的数量,再对x
P
加上一个可学习的[SCALE_TOKEN],[SCALE_TOKEN]的维度大小与x
P
相同,如公式(3)所示:其中为第k个尺度生成的特征图序列;E
scale
为[SCALE_TOKEN],表示可学习的特征尺度;综上对步骤1

2中获得的三个尺度的特征处理后加上[CLS_TOKEN]和[POS_TOKEN]可得到特征Z,如公式(9)所示;
其中,x
cls
为[CLS_TOKEN]全局特征向量;分别为三个尺度的特征序列;E
pos
为[POS_TOKEN],表示空间位置。4.根据权利要...

【专利技术属性】
技术研发人员:姜明何铃杰张旻
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1